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O'Reilly Media, Inc. 介 绍 


O'Reilly Media 通 过 图 书 、 在 线 服 务 、 杂 志 、 调 查 研究 和 会 议 
等 方式 传播 创新 者 的 知识 。 自 1978 年 开始 O’Reilly 一 直 都 是 发 
展 前 沿 的 见证 者 和 推动 者 。 超 级 极 客 正 在 开创 未 来 ， 我 们 关注 
着 真正 重要 的 技术 趋势 ， 通 过 放大 那些 “微弱 的 信号 ?来 刺激 社 
会 对 新 科技 的 采用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 
的 发 展 充满 着 对 创新 的 倡导 、 创 造 和 发 扬 光 大 。 


O'Reilly 为 软件 开 肥 人 员 带 来 革命 性 的 “动物 书 ”， 创 建 第 一 个 
商业 网 站 CGNNO ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 
全 于 开源 软件 运动 以 此 命名 ;创立 了 Make 杂 志 ， 从 而 成 为 DIY 
单 命 的 主要 先锋 ， 公 司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 
的 纽带 。O’Reilly 的 会 议和 峰会 聚集 了 众多 超级 极 客 和 融 瞻 远 
瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 思想 。 作 为 
技术 人 士 获取 信息 的 选择 ，O’Reilly 现在 还 将 先锋 专家 的 知识 
传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服务 或 
者 面授 读 程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 
理念 一 信息 是 激发 创新 的 力量 。 


业界 评论 


*O?Reilly Radar Ñ fj O Et. » 
































Wired 


“O?Reilly 攒 借 一 系列 《〈《 真 和 希望 当初 我 也 想到 了 ) 非凡 想法 建 
并 了 数 百 万 美元 的 业务 。” 








一 Business 2.0 


*O"Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
— —CRN 
“一 本 O”Reilly 的 书 束 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主 
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Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 
视野 并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 
PESARO, ÆDE AR) 。” 回 顾 过 去 Tim 似 乎 每 一 次 
都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 办 即 瞬 的 机 会 ， 尽 管 大 路 
也 不 错 。” 








Linux Journal 
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对 于 一 位 分 布 式 存储 系统 的 开发 者 ，Cassandra 无 疑 是 非常 引 人 
注目 的 ， 它 的 无 中 心 架 构 、 高 可 用 性 、 无 颖 扩展 等 继承 上 自 亚 马 
还 Dynamo 的 特质 ， 相 对 于 其 他 主 从 架构 的 NoSQL 系 统 更 加 人 简 
洁 ， 也 更 具有 美感 。 


我 从 2010 年 初 开 始 关 注 这 个 系统 ， 并 翻译 过 几 篇 Cassandra 相 关 
的 文章 ， 还 引起 一 些 读者 热烈 的 讨论 。2010 年 底 ， 当 刘 江 老师 
为 本 书 寻找 译 者 时 ， 我 按 探 不 住 ， 毛 遂 自 荐 ， 并 随后 在 2011 年 
1 月 中 下 名 开始 了 本 书 的 翻译 工作 。 我 用 了 三 个 月 的 业余 时 
间 ， 终 于 在 4 月 份 完成 了 译 稿 。 因 为 Cassandra 仍 在 快速 开发 
2E 


本 书 对 Cassandra 的 概念 、 架 构 、 配 置 、 使 用 进行 了 全 面 的 介 
绍 ， 非 常 详尽 ， 而 且 给 出 了 很 多 参考 信息 。 对 于 希望 了 解 
Cassandra、 评 估 Cassandra 是 否 是 适合 自己 的 应 用 ， 以 及 开始 
者 手 在 Cassandra 上 进行 应 用 开发 的 人 都 是 不 错 的 读物 。 当 然 ， 
如 果 想 参与 Cassandra 的 开发 或 做 更 深入 的 工作 ， 还 需要 直接 通 
过 源 代 码 来 获取 更 详尽 的 信息 。 


在 翻译 中 ， 我 尽力 使 用 已 有 的 、 被 广泛 接受 的 名 词 或 术语 ， 对 
于 一 些 译 法 没有 被 广泛 接受 的 术语 ， 在 不 产生 歧义 的 前 提 下 ， 
我 会 选择 一 个 目 以 为 恰当 的 词 ， 有 时 还 会 给 出 英文 ， 以 避免 读 
者 不 能 将 代码 和 本 书 给 出 的 名 词 对 应 上 。 还 有 一 些 名 词 尚 没有 
贴切 的 中 文 译 法 ， 或 是 译 出 容易 产生 上 疏 义 ， 或 是 国内 开发 者 已 
习惯 使 用 英文 ， 这 时 我 在 翻译 中 保留 了 英文 原文 。 这 些 选择 都 
以 帮助 理解 、 避 免 收 义 为 站 要 考虑 。 
































本 书 的 翻译 工作 得 到 了 很 多 朋友 和 网 友 的 关注 ， 和 希望 没有 让 他 
们 久 等 。 我 的 同事 郭 乔 涛 ， 作 为 数据 库 和 HBase 的 专家 、 
Cassandra 用 户 ， 在 本 书 的 翻译 过 程 中 给 予 了 很 多 有 益 的 帮助 。 
感谢 现在 CSDN 的 刘 江 老师 ， 给 我 这 个 机 会 把 Cassandra 介 绍 给 
大 家 。 当 然 ， 还 要 感谢 图 灵 的 编辑 杨 海 玲 、 傅 志 红 ， 还 有 李 松 
峰 在 本 书 的 翻译 过 程 中 做 了 大 量 的 细心 工作 。 


希望 本 书 的 翻译 出 版 能 对 读者 进入 NoSQL 的 世界 、 开 始 自己 的 
Cassandra 应 用 有 些许 的 帮助 。 
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Cassandra 是 Facebook 于 2008 年 7 月 开源 的 项 目 。 它 最 早 的 版 本 
主要 是 由 一 位 亚马逊 前 雇员 和 一 位 微软 的 工程 师 写 成 的 。 这 个 
系统 受到 了 亚马逊 前 卫 的 键 / 值 存储 系统 Dynamo 的 巨大 影 啊 。 
Cassandra 实 现 了 Dynamo 风 格 的 副本 复制 模型 和 没有 单 点 失效 
的 架构 ， 但 增加 了 更 为 强大 的 “ 列 族 ”数据 模型 。 


当年 12 月 ， 在 Rackspace 要 求 我 帮 他 们 建立 一 个 可 扩展 的 数据 
库 的 时 候 ， 我 加 入 到 这 个 项 目 之 中 。 那 是 个 很 好 的 时 机 ， 因 为 
今天 所 有 重要 的 开源 可 扩展 数据 库 在 那 时 都 有 了 ， 可 以 做 做 比 
较 。 尽 管 最 初 Cassandra 只 有 一 个 主要 的 应 用 案例 ， 但 它 的 底层 
CEN 于 是 ， 我 致力 于 改进 代码 ， 同 时 建立 一 个 社 
Xo 


之 后 ，Cassandra 被 接纳 为 Apache 的 孵化 器 项 目 ， 并 于 2010 年 3 
月 毕业 成 为 顶级 项 目 。 此 时 它 已 经 成 为 了 一 个 真实 的 开源 软件 
的 成 功 案例 ，Rackspace、Digg、Twitter 等 公司 都 成 了 忠实 的 
用 户 ， 他 们 不 愿意 从 零 开 始 写 自己 的 数据 库 ， 但 却 希 望 一 起 来 
构建 一 个 更 优秀 的 系统 。 


今天 的 Cassandra 已 经 远 不 止 是 当初 那个 〈 现 在 也 还 在 ) 用 来 驱 
动 Facebook 的 收 件 箱 搜索 的 系统 了 ， 按 照 Tony Bain 的 说 法 ， 

它 已 经 成 为 了 “事务 处 理性 能 的 不 二 赢家 ”， 而 且 在 可 靠 性 和 可 
扩展 性 方面 具有 显赫 的 声誉 。 


随 着 Cassandra 逐 渐 成 熟 并 获得 了 更 多 的 主流 用 户 ， 我 们 显然 有 
为 它 提供 商业 文 持 的 需要 ， 于 是 ，Matt Pfeil 和 我 在 2010 年 4 月 
共同 创立 了 Riptano。 帮 助 推动 Cassandra 的 应 用 具有 丰富 的 回 
报 ， 特 别 是 可 以 看 到 更 多 的 还 没有 被 公开 讨论 过 的 应 用 。 

































































另 一 个 需求 就 是 一 本 关于 Cassandra 的 书 。 和 很 多 开源 项 目 一 
样 ，Cassandra 的 文档 一 直 就 是 一 个 弱项 。 而 且 即 使 是 文档 最 终 
得 到 了 改善 ， 一 本 这 样 的 书 仍 然 会 非常 有 用 。 


感谢 Eben 来 承担 这 项 集 艺 术 与 科学 于 一 里 的 艰巨 任务 ， 讲 解 
Cassandra 的 开发 与 部 署 。 读 者 朋友 现在 有 机 会 可 以 有 条 理 地 学 
习 这 些 新 概念 了 。 











Jonathan Ellis 


Apache Cassandra 项 目 主 席 、Riptano 联 合 创始 人 
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选择 Apache Cassandra 


Apache Cassandra 是 一 个 自由 、 开 源 的 分 布 式 数据 存储 系统 ， 
与 传统 的 关系 型 数据 库 管 理 系统 截然 不 同 。 


Cassandra 在 2009 年 1 月 成 为 了 Apache 基 金 会 的 一 个 孵化 器 项 

Ho AA, UApache Cassandra 项 目 主 席 Jonathan Ellis 为 首 的 开 
发 者 们 发 布 了 Cassandra 0.3， 随 后 稳定 不 断 地 发 布 新 的 小 版 
本 。 虽 然 Cassandra 在 本 书 完 成 时 仍然 没有 达到 1.0 发 布 版 本 ， 

但 已 经 被 互联 网 领域 的 很 多 巨头 使 用 在 了 生产 系统 之 中 ， 他 们 
包括 Facebook、Twitter、Cisco、Rackspace、Digg、 
Cloudkick、Reddit 等 。 


因为 它 非常 出 色 的 技术 特性 ，Cassandra 已 经 变 得 非常 受 欢迎 
了 。 它 具有 持久 性 、 无 疑 扩展 性 、 可 调 的 一 致 性 。 它 的 写 操作 
非常 快 ， 可 以 存储 上 百 TB 数 据 ， 而 且 是 无 中 心 的 和 对 称 的 ， 
所 以 不 会 有 单 点 失效 。 它 还 是 高 度 可 用 的 ， 提 供 了 无 schema 的 
数据 模型 。 

目标 读者 
本 书 适 用 于 各 类 读者 。 它 对 以 下 读者 都 会 非常 有 用 。 

。 大 规模 、 高 容量 网 站 的 开发 者 ， 比 如 Web 2.0 的 社交 应 用 。 


。 和 需要 理解 这 个 高 性 能 、 无 中 心 、 弹 性 数据 存储 系统 的 应 用 
架构 师 或 数据 架构 师 。 









































e 和布 望 理解 如 何 实现 容错 、 最 终 一 致 的 数据 存储 系统 的 标准 
关系 型 数据 库 系统 管理 员 或 开发 者 。 


e 希望 了 解 Cassandra 的 优势 《和 不 足 ) 以 及 其 他 相关 的 列 数 
据 库 ， 以 帮助 进行 技术 路 线 选择 的 管理 者 。 


。 正 在 进行 Cassandra 或 其 他 非 关 系 型 数据 库 相 关 项 目的 学 
生 、 分 析 师 或 研究 员 。 


本 书 是 一 本 技术 指南 。 从 某 种 意义 上 说 ，Cassandra 代 表 了 一 种 
对 数据 的 新 的 思考 。 在 过 去 的 15 一 20 年 间 ， 很 多 合格 的 职业 开 
发 者 都 在 使 用 纯粹 的 关系 型 或 是 面 同 对 象 的 术语 来 描述 他 们 的 
数据 。Cassandra 的 数据 模型 与 此 非常 不 同 ， 起 先 可 能 很 难 吸 引 
你 ， 特 别 是 对 于 数据 库 〈 应 该 ) 是 什么 已 经 有 了 先入 为 主 的 概 
念 的 人 ， 更 是 如 此 。 


使 用 Cassandra 并 不 意味 着 你 必须 成 为 一 个 Java 开 发 者 。 不 过 ， 
Cassandra 是 用 Java 开 发 的 ， 所 以 奉 要 深入 分 析 源 代码 ， 你 需要 
对 Java 语 言 有 更 坚 实 的 理解 。 虽 然 不 一 定 需要 懂得 Java， 但 
Java 可 以 帮助 你 更 好 地 了 人 解 异常 、 学 会 如 何 编译 源码 以 及 使 用 
一 些 流行 的 客户 端 。 本 书 中 的 很 多 例子 都 是 用 Java 写 成 的 。 尽 
管 如 此 ， 因 为 Cassandra 使 用 了 语言 中 立 的 RPC 接 口 ， 所 以 你 可 
以 使 用 多 种 语言 来 开发 Cassandra 应 用 ， 包 括 C#、Scala、 
Python 以 及 Ruby 等 。 


最 后 ， 本 书 假设 读者 已 经 了 解 了 Web 是 如 何 工作 的 ， 能 够 使 用 
集成 开发 环境 ， 并 对 数据 驱动 的 应 用 的 典型 问题 有 某 些 了 解 。 
你 可 能 是 一 个 经 验 丰 富 的 开发 者 或 管理 员 ， 但 是 对 于 在 
Cassandra 的 世界 里 使 用 到 的 工具 可 能 偶尔 也 不 是 非常 部 悉 。 比 
如 Cassandra 使 用 Apache Ivy 进 行 编译 ， 而 用 一 个 流行 的 客户 端 

(Hector) 使 用 Git 进 行 版 本 管理 。 当 我 感到 你 可 能 需要 自己 进 
行 一 些 设置 才能 运行 一 个 例子 的 时 候 ， 我 会 尽量 予以 说 明 。 





















































本 书 的 结构 


本 书 把 每 章 合 理 地 设计 为 一 个 个 独立 的 指南 。 因 为 本 书 是 介绍 
Cassandra 的 ， 读 者 们 可 能 背景 各 异 ， 而 且 技 术 变化 很 快 ， 所 以 
这 么 处 理 非 常 重 要。 借用 一 个 软件 界 的 说 法 ， 我 希望 本 书 能 够 
有 点 儿 “ 模 块 化 ”。 如 果 你 是 一 个 Cassandra 新 人 ， 那 么 可 以 按照 
顺序 阅读 ， 而 如 果 你 已 经 有 所 了 解 ， 不 需要 介绍 了 ， 那 么 也 可 
0 把 它们 当做 独立 的 指南 








本 书 的 具体 结构 是 这 样 的 。 
e 第 1 章 Cassandra 概 况 


这 一 章 介 绍 了 Cassandra， 并 讨论 了 它 与 众 不 同 的 特质 、 优 势 和 
目前 的 用 户 。 


e 第 2 章 安装 Cassandra 
在 这 一 间 中 ， 作 者 会 市 你 在 不 同 平台 上 安装 Cassandra。 

。 第 3 章 Cassandra 的 数据 模型 
这 里 ， 我 们 介绍 了 Cassandra 的 数据 模型 以 了 解 Cassandra 中 的 
列 、 超 级 列 、 行 都 是 什么 。 我 们 特别 介绍 了 Cassandra 和 传统 的 
关系 型 数据 库 之 间 的 差别 。 

。 第 4 章 应 用 实例 


这 一 章 给 出 了 一 个 完整 可 用 的 例子 ， 将 一 个 大 家 熟悉 的 领域 中 
的 应 用 实例 从 关系 模型 迁移 到 了 Cassandra 的 数据 模型 之 上 。 


。 第 5 章 Cassandra 的 架构 











一 草 会 帮 你 理解 在 Cassandra 进 行 读 写 操作 时 ， 到 底 都 发 生 了 

么 ， 这 个 数据 库 是 如 何 做 到 它 的 那些 特点 的 ， 比 如 持久 性 和 
可 用 性 。 我 们 深入 到 底层 来 了 解 一 些 更 复杂 的 内 部 工作 机 
j， 比 如 gossip 协 议 、 提 示 移 交 、 读 时 修复 、Merkle 树 等 。 


zx 


uir 





e 第 6 章 配置 Cassandra 


这 一 草 介 绍 了 如 何 设置 分 区 器 、 副 本 放置 策略 和 snitch。 我 们 
配置 了 一 个 集群 ， 了 解 不 同 配置 选项 对 于 集群 的 影 啊 。 


。 第 7 重 读 写 数据 


这 是 我 们 一 直 期 待 的 时 刻 。 这 里 介绍 了 Cassandra 模 型 在 查询 和 
An 然后 还 使 用 API 进 行 
本 RE. 


e 第 8 章 客户 端 


第 三 方 开 发 者 为 Cassandra 开 发 了 很 多 不 同 的 客户 端 ， 文 持 多 种 
语言 ， 包 括 Java、C#、Ruby、Python 等 ， 对 Cassandra 的 底层 
API 进 行 了 再 次 抽象 。 我 们 会 帮 你 从 整体 上 了 解 这 些 客户 端 ， 
这 样 你 就 可 以 选择 一 个 适合 自己 的 了 。 








。 第 9 半 监控 
一 旦 集群 已 经 配置 好 并 开始 运行 了 ， 束 需要 监控 它 的 利用 率 、 
内 存 占 用 和 线程 状况 ， 了 解 它 的 日 党 行为 。Cassandra 内 建 了 丰 
富 的 Java 管 理 扩展 JMX) 接口 ， 我 们 可 以 监控 所 有 这 些 信 
息 ， 其 至 更 多 。 

。 第 10 章 维护 


通过 服务 器 自 带 的 一 些 工 具 ， 可 以 更 简单 地 进行 很 多 Cassandra 























e 第 11 章 性 能 调 优 


Cassandra 的 一 个 最 值得 一 提 的 特性 加 是 它 的 速度 一 一 非常 地 
快 。 但 有 很 多 东西 ， 包 括 内 存 设 置 、 数 据 存 储 、 硬 件 选 择 、 绥 
存 和 缓冲 区 大 小 等 ， 都 需要 进一步 调 优 ， 从 中 获得 更 高 的 性 


会 已 
HE o 





























e 第 12 章 集成 Hadoop 


这 一 章 由 Jeremy Hanna 写 作 。 在 这 一 章 我 们 会 把 Cassandra 放 到 
一 个 更 大 的 背景 中 ， 学 习 如 何 将 它 与 Hadoop 集 成 在 一 起 ， 
Hadoop 是 Google 的 Map/Reduce 算 法 目前 一 个 十 分 流行 的 实 

现 。 








。 附录 


很 多 新 的 数据 库 都 在 今日 海量 数据 的 需求 之 下 应 运 而 生 了 ， 有 
的 从 “无 schema” 模 型 中 获 益 ， 有 的 文 持 更 新 的 一 些 趋势 ， 如 语 
义 网 络 。 这 里 我 们 把 Cassandra 放 到 各 种 流行 的 非 关 系 型 数据 库 
背景 之 中 ,分别 了 解 面 同文 档 的 数据 库 、 分 布 式 哈 希 表 、 图 数 
据 库 等 ， 来 更 好 地 理解 Cassandra 所 提供 的 东西 。 


e idi 


理解 一 些 确实 很 新 的 东西 是 相当 困难 的 ，Cassandra 中 有 些 名 词 
对 于 关系 型 应 用 的 开发 者 和 DBA 来 说 可 能 非常 陌生 ， 我 编写 了 
一 个 词汇 表 ， 来 方便 大 家 阅读 本 书 。 如 果 某 个 概念 让 你 不 知 所 
云 ， 可 以 翻 到 词汇 表 来 了 解 诸 如 Merkle 树 、 回 量 时 钟 、 提 示 移 
交 、 读 时 修复 和 其 他 生僻 的 名 词 。 





























* 本 书 针 对 Cassandra 0.6 和 0.7 写 成 。 项 目 组 正在 努力 开 
发 Cassandra， 新 的 小 版 本 和 修订 版 本 会 不 断 释 出 。 在 可 能 的 
地 方 ， 我 会 尽量 解释 版 本 间 的 不 同 ， 不 过 你 在 阅读 时 可 能 
经 用 上 了 一 个 更 新 的 版 本 ， 有 些 实现 因此 会 有 所 不 同 。 


更 多 信息 


如 果 你 需要 了 解 和 天 于 Cassandra 的 更 多 信息 ， 获 得 最 近 的 更 新 ， 
可 以 访问 本 书 网 站 : http://www.cassandraguide.com 。 











在 Twitter 上 关注 我 〈@ebenhewitt) 也 是 个 好 主意 。 
格式 约定 
本 书 使 用 了 如 下 排版 约定 。 
。 楷 体 
用 于 标记 新 名 词 。 
。 等 宽 字 体 


用 于 程序 代码 ， 在 段落 中 用 于 表示 程序 的 组 成 部 分 ， 如 变量 或 
函数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 、 关 键 字 。 











命令 或 是 其 他 应 该 由 用 户 输入 的 内 容 。 


应 该 由 用 户 提 供 的 或 由 上 下 文 确定 的 值 。 





“人 这 个 图 标 表明 一 个 提示 、 建 议 或 一 般 注 记 。 











TES 这 个 图 标 表示 一 个 警告 或 警示 。 
使 用 示例 代码 


本 书 用 于 帮助 你 完成 工作 。 通 第 ， 你 可 以 在 程序 或 文档 中 使 用 
本 书 提供 的 代码 。 除 非 你 在 重新 发 布 我 们 的 大 量 代 码 ， 人 否则 不 
需要 联系 我 们 来 获得 许可 。 比 如 ， 在 程序 中 使 用 本 书 代 码 的 一 
些 片 段 是 无 需 我 们 许可 的 。 但 是 出 售 或 再 分 用 O"?Reilly 的 图 书 
示例 光盘 显然 是 需要 授权 的 。 引 用 本 书 或 引用 示例 代码 来 回答 
问题 是 不 需要 授权 的 ， 但 使 用 本 书 的 大 量 示例 代码 作为 你 的 产 
品 的 文档 是 需要 授权 的 。 


我 们 乐于 见 到 你 在 使 用 时 声明 引用 信息 ， 但 不 强制 要 求 。 引 用 
信息 通常 包括 书 名 、 作 者 、 出 版 社 和 ISBN。 上 比 

如 : “Cassandra: The Definitive Guide by Eben Hewitt. Copyright 
2011 Eben Hewitt, 978-1-449-39041-9.” 


如 果 你 认为 对 示例 代码 的 使 用 需要 授权 ， 请 通过 这 个 邮箱 联系 


我 们 permissions@oreilly.com。 


Safari@ 在 线 图 书 









































Safari 

Books Online Safari 在 线 图 书 是 应 需 而 变 的 数字 图 书 
馆 。 它 能 够 让 你 非常 轻松 地 搜索 7500 多 种 技术 性 和 创新 性 参考 
书 以 及 视频 ， 以 便 快 速 地 找到 需要 的 答案 。 


订阅 后 就 可 以 访问 在 线 图 书馆 内 的 所 有 页 面 和 视频 。 可 以 在 手 
机 或 其 他 移动 设备 上 阅读 。 还 能 在 新 书 上 市 之 前 抢先 阅读 ， 也 
能 够 看 到 还 在 创作 中 的 书稿 并 癌 作 者 反馈 意见 。 复 制 粘贴 代码 
示例 、 放 入 收藏 严 、 下 载 部 分 音节、 标记 关 键 点 、 做 笔记 长 至 
打印 页 面 等 有 用 的 功能 可 以 节省 大 量 时 间 。 


这 本 书 也 在 其 中 。 欲 访问 本 书 的 英文 版 电子 版 ， 或 者 由 
O'Reilly 或 其 他 出 版 社 出 版 的 相关 图 书 ， 请 
到 http:/my.safaribooksonline.com 免费 注册 。 























我 们 的 联系 方式 
请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 。 
美国 


O'Reilly Media, Inc. 

1005 Gravenstein Highway North 

Sebastopol, CA 95472 

HH: 

北京 市 西城 区 西直门 南大 街 2 号 成 饮 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 》 有 限 公 司 




















O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 关于 本 
书 的 相关 信息 ， 包 括 勘 误 表 、 示 例 代码 以 及 其 他 的 信息 。 本 书 
的 网 站 地 址 是 : 

http://www.oreilly.com/catalog/0636920010852/ 


ub 





http://www.oreilly.com.cn/index.php?func-book&isbn- 


对 于 本 书 的 评论 和 技术 性 的 问题 ， 请 发 送 电 子 邮件 到 : 








bookquestions(@oreilly.com 


关于 本 书 的 更 多 人 信息、 会议、 资源 中 心 和 网 络 ， 请 访问 以 下 网 
DUE 





http://www.oreilly.com 


http://www.oreilly.com.cn 
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写作 


我 的 灵感 来 自 很 多 了 不 起 的 Cassandra 开 发 者 。 向 编写 出 这 个 优 
美 而 强大 的 数据 库 的 开发 者 们 致敬 。 

还 要 一 如 既往 地 感谢 Alison Brown， 他 阅读 了 手稿 、 给 我 提 
示 ， 并 确保 我 的 写作 时 间 ， 没 有 他 ， 这 本 书 束 不 会 诞生 。 


#1% Cassandra 


[条 一 个 概念 一 开始 不 是 殉 诞 不 贰 的 话 ， 那 它 也 没什么 前 
途 。 





阿尔 伯 特 : 爱 因 斯 坦 


欢迎 阅读 《Cassandra 权 威 指南 》。 本 书 的 目标 是 帮助 开发 者 和 
数据 库 管 理 员 们 理解 这 种 重要 的 新 型 数据 库 ， 探 索 它 与 传统 的 
关系 型 数据 库 系统 有 何 异 同 ， 并 帮助 你 在 自己 的 系统 中 使 用 


Cassandra。 





1.1 关系 型 数据 库 有 什么 问题 
如 果 当 初 我 问 人 们 到 底 想 要 什么 的 话 ， 他 们 会 说 想 要 快 些 的 
" 


一 一 亨利. 福特 


请 你 考虑 一 种 数据 模型 ， 它 由 一 个 拥有 数 千 名 雇员 的 大 公司 里 
的 一 个 小 团队 发 明 。 这 个 模型 可 以 通过 TCP/P 访 问 ， 并 且 可 以 
使 用 包括 Java 和 Web Service 在 内 的 多 种 语言 访问 。 在 被 广泛 采 
纳 之 前 ， 这 个 模型 起 初 若 非 最 顶尖 的 计算 机 科学 家 都 很 难 理 

解 ， 最 终 因 为 用 的 人 越 来 越 多 ， 才 被 大 家 认识 。 要 使 用 这 种 模 
型 构建 出 数据 库 ， 就 必须 学 习 许 多 新 术语 ， 换 一 种 方式 考虑 数 
据 存 储 。 随 着 相关 的 产品 层出不穷 地 出 现 ， 很 多 公司 和 政府 间 
门 开 始 广 泛 地 使 用 它 ， 因 为 它 非常 快 一 一 可 以 在 一 秒 钟 内 执行 
上 千 次 操作 。 这 种 模型 产生 了 让 人 难以 置信 的 收益 。 


然后 ， 又 一 种 新 的 模型 出 现 了 。 


这 个 新 模型 是 一 种 可 怕 的 异 问 ， 主 要 有 两 点 原因 。 首 移 ， 它 最 
受 非议 的 地 方 就 在 于 新 模型 与 旧 模 型 完全 不 同 ， 它 们 简直 是 格 
格 不 入 。 这 很 可 怕 ， 因 为 全 新 且 完 全 不 同 的 东西 通 第 难以 理 
解 。 随 之 而 来 的 争论 更 进一步 屯 固 了 和信 们 的 看 法 ， 而 这 些 看 法 
主要 来 自作 们 已 有 的 工作 环境 和 习 得 的 搁 术 。 其 次 ， 或 许 是 更 
重要 的 原因 ， 新 模型 所 面临 的 阻碍 更 多 来 目 商业 考虑 ， 它 威胁 
到 了 在 旧 模 型 上 的 大 量 投资 ， 这 些 投 资 正 在 带 来 大 量 收 入 。 在 
这 个 时 候 改变 似乎 是 可 笑 的 ， 也 是 不 可 能 的 。 


当然 ， 我 说 的 是 1966 年 由 [BM 发 明 的 信息 管理 系统 (IMS) 分 
层 数据 库 。 






































IMS 是 为 “ 士 星 五 号 ” 登 月 火箭 而 设计 的 。 它 的 架构 师 是 Vern 
Watts， 他 的 整个 职业 生涯 都 和 IMS 联 系 在 一 起 。 很 多 读者 都 知 
道 IBM 的 DB2 数 据 库 。 而 IBM 广 为 人 知 的 DB2 数 据 库 的 名 字 就 
沿袭 自 它 的 前 身 DB1，DB1 是 围绕 着 IMS 的 数据 模型 构建 的 。 
IMS 于 1968 年 发 布 ， 之 后 在 用 户 信 息 控 制 系统 〈CICS) 和 其 他 
应 用 中 取得 成 功 。 至 今 IMS 仍 被 很 多 应 用 使 用 着 。 


但 是 ， 在 IMS 发 明之 后 的 几 年 里 就 出 现 了 一 个 魏 新 的 模型 ， 这 
个 破坏 性 的 、 市 来 威胁 的 模型 就 是 关系 型 数据 库 。 


同样 来 自 IBM 的 Edgar F. Codd 博 士 在 他 1970 年 发 表 的 论文 《一 
种 用 于 大 规模 共享 数据 存储 系统 的 天 系 型 数据 模型 》 中 ， 阅 述 
了 他 在 IBM 圣 何 塞 实验 室 的 工作 中 提出 的 关系 数据 模型 理论 。 
这 篇 目前 仍然 可 以 
{Ehttp://www.seas.upenn.edu/~zives/03f/cis550/codd.pdf 访问 的 
论文 ， 成 为 了 后 来 的 关系 型 数据 管理 系统 的 葛 基 性 作品 。 


Codd 的 工作 与 IMS 的 层次 化 结构 完全 对 立 。IMS 的 用 户 要 理解 
并 使 用 关系 型 数据 库 ， 就 需要 学 习 很 多 听 起 来 十 分 怪异 的 新 名 
词 。 不 过 ， 关 系 型 模型 与 它 的 前 身 相 比 更 具 优 势 ， 部 分 因为 巨 
人 几乎 总 是 站 在 其 他 巨人 的 肩膀 上 。 


关系 型 数据 库 这 个 概念 和 它 的 应 用 已 经 演化 了 40 多 年 了 ， 毫 无 
疑问 ， 它 是 软件 应 用 历史 上 最 成 功 的 一 个 。 它 既 可 以 在 个 人 小 
公司 里 通过 微软 Access 数 据 库 来 使 用 ， 也 可 以 在 大 型 跨国 公司 
的 上 百 台 经 过 调 优 的 服务 器 上 使 用 ， 构 成 存储 数 TB 数 据 的 数 
据 仓 库 。 关 系数 据 模型 存储 了 账单 、 用 户 记 录 、 产 品目 录 、 账 
户 明细 、 用 户 鉴 权 信息 等 ， 可 以 说 关系 型 数据 库 里 差不多 存储 
了 整个 世界 。 上 毫 无 疑问 ， 无 论 以 现代 的 技术 还 是 商业 视角 看 ， 
关系 型 数据 库 都 扮演 着 关键 角色 ， 而 且 ， 多 年 后 它 也 会 以 各 种 
形式 一 直 伴 随 我 们 存在 ，IMS 也 是 同样 。 关 系 模型 虽然 是 IMS 
的 一 种 蔡 代 模型 ， 两 者 都 各 得 其 所 。 

































































所 以 ， 要 问 关 系 型 数据 库 有 什么 问题 ， 一 言 以 项 之 ， 就 是 “ 没 
有 问题 ”。 


不 过 ， 实 际 上 我 还 想 请 你 考虑 一 个 长 一 点 的 答案 。 这 个 答案 需 
要 从 长 计 议 ， 每 个 偶然 诞生 的 概念 都 在 点 滴 改变 着 世界 ， 孕 育 
着 某 种 革命 。 而 这 一 次 次 的 革命 不 过 是 历史 的 重演 罢了 。 从 
IMS、RDBMS 到 NoSQL， 一 如 从 马 到 汽车 再 到 飞机 ， 每 一 个 
都 建立 在 前 一 个 的 基础 之 上 ， 解 决 前 一 个 存在 的 某 些 问 题 ， 每 
个 都 有 所 长 ， 亦 有 所 短 。 他 们 彼此 共存 ， 直 到 如 今 。 


那么 束 来 看 看 为 什么 现在 我 们 要 考虑 关系 型 数据 库 的 丛 代 产 
品 ， 正 如 四 十 年 前 Codd 上 自己 面 对 信 息 管 理 系统 AMS) 的 思考 
一 样 一 一 或 许 IMS 不 是 唯一 适合 用 于 组 织 信息 、 处 理 数据 的 方 
法 ， 可 能 正 古 因为 茶 些 问题 使 得 他 必须 要 考虑 一 种 IMS 的 将 代 
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当 基 于 关系 型 数据 库 的 应 用 取得 成 功 ， 访 问 量 大 幅 增 加 的 时 
候 ， 我 们 就 会 过 到 可 扩展 性 问题 。 所 有 上 共有 最 基本 功能 的 关系 
型 数据 库 都 会 支持 join 操 作 ， 不 过 join 可 能 会 很 乙 。 由 于 数据 库 
通 第 依 徘 事务 来 你 证 一 任性 ， 而 事务 需要 锁 住 数据 库 的 一 部 
分 ， 使 之 不 能 被 其 他 用 户 访 问 。 因 为 锁 本 号 意 味 着 苋 争 同一 数 
所 的 用 户 会 被 放 入 队列 ， 等 竺 获得 该 写 权 限 ， 这 在 高 负载 的 情 
况 下 可 能 会 成 为 系统 的 死 六 。 
通常 ， 我 们 会 用 下 面 的 一 条 或 几 条 方法 来 解决 这 些 问 题 ， 很 多 
时 候 是 下 面 这 个 顺序 。 

e 提升 硬件 能 力 来 解决 问题 ， 如 增加 内 存 、 用 更 快 的 处 理 需 


以 及 升级 便 往 。 这 种 方法 称 为 垂直 扩展 ， 可 以 解 一 时 之 
Èo 


。 当 问题 再 度 出 现时 ， 解 决 方法 很 类 似 ， MA EnA 
不 堪 重 人 负 了 ， 我 们 就 增加 新 的 计算 机 ， 构 成 数据 库 集群 。 













































































不 过 ， 这 样 你 就 会 在 正常 使 用 及 出 故障 时 遇 到 数据 复制 与 
一 致 性 问题 了 。 这 些 问题 之 前 从 未 出 现 过 。 


现在 我 们 需要 更 新 数据 库 管理 系统 的 配置 。 可 能 是 要 优化 
数据 库 用 来 写 底 层 文 件 系 统 的 通道 。 我 们 关 挥 了 文件 系统 
d Sd 
体 分 析 ) 。 


在 数据 库 系 统 上 投入 了 足够 多 的 精力 之 后 ， 我 们 转 过 来 审 
视 目 己 的 应 用 。 我 们 开始 优化 索引 、 优 化 碍 询 。 不 过 ， 当 
我 们 的 应 用 达到 这 个 规模 的 时 候 ， 鸭 怕 不 太 会 完全 没 做 过 
索引 和 查询 优化 ， 可 能 已 经 优化 过 不 少 了 。 那 么 ， 只 好 重 
新 审视 所 有 数据 库 访问 代码 ， 想 发 现 零星 的 可 以 调 优 的 机 
会 ， 这 是 一 件 相 当头 疼 的 事 。 优 化 内 容 可 能 包括 减少 或 改 
写 join 操 作 ， 除 去 比较 消耗 资源 的 特征 (如 在 存储 过 程 中 
的 XML 处 理 ) 等 。 当 然 ， 我 们 做 那些 XML 处 理 本 身上 衣 定 
古 有 原因 的 ， 如 宁 我 们 不 得 不 做 的 话 ， 那 融 得 把 它 挪 到 应 
用 层 去 ， 布 望 那里 能 解决 问题 ， 并 禄 祥 我 们 这 么 干 不 会 同 
I ETT A HAE ZR VU TED 


我 们 增加 了 一 个 缓存 层 。 对 于 大 系统 可 能 会 引入 分 布 式 绥 
存 ， 如 memcached、EHCache、Oracle Coherence 或 其 他 类 
似 产品 。 现 在 ， 我 们 又 需要 面临 更 新 缓存 和 更 新 数据 库 的 
一 致 性 问题 了 ， 对 于 集群 来 说 ， 问 题 更 加 严重 。 


现在 我 们 把 注意 力 重新 转 同 数据 库 ， 由 于 应 用 已 经 在 那里 
了 ， 并 且 我 们 很 了 解 主 要 的 查询 路 径 ， 现 在 我 们 复制 那些 
访问 频率 较 高 的 数据 ， 让 它们 更 接近 于 查询 想 要 得 到 的 形 
式 。 这 个 过 程 称 为 反 范式 化 (denormalization〉， 它 与 天 
系 模型 的 关键 特征 里 的 五 种 形式 是 对 立 的 ， 也 违反 了 Codd 
对 关系 型 数据 模型 的 12 条 建议 。 我 们 只 能 安奈 自己 说 我 们 
是 生活 在 现实 世界 之 中 ， 而 非 理 论 世 界 中 ， 并 保证 我 们 所 












































做 的 都 是 为 了 让 应 用 能 够 在 可 接受 的 啊 应 时 间 下 完成 工 
作 ， 即 使 这 已 经 不 是 “纯粹 ”的 天 系 模型 了 。 


我 相信 这 一 厌 对 你 肯定 非常 熟悉 。 在 互联 网 的 规模 下 ， 工 程 师 
们 已 经 开始 考虑 这 个 情况 是 不 是 和 当年 部 利 ' 福 特 的 境遇 有 些 
相似 ， 你 真正 需要 的 已 不 仅仅 是 你 本 来 想 的 一 匹 快 马 了 。 他 们 
己 经 做 了 一 些 令 人 称道 而 有 趣 的 工作 。 


首先 我 们 必须 认识 到 ， 关 系 模型 只 是 一 种 数据 模型 而 已 。 它 是 
一 种 看 待 世 界 的 有 效 的 方法 ， 对 某 些 问题 非常 有 效 。 但 它 并 没 
打算 也 没 被 证 明 可 以 一 统 天 下 ， 不 留任 何 余 地 终结 所 有 其 他 表 
示 数 据 的 方法 。 如 果 我 们 回顾 一 下 历史 束 会 发 现 ，Codd 博 士 
的 模型 也 曾 是 个 破坏 性 的 发 明 。 它 是 全 新 的 ， 带 来 了 很 多 新 词 
汇 和 像 “ 元 组 ”这 样 的 术语 一 一 老 词汇 但 有 新 意义 。 关 系 模型 在 
当时 引 及 了 质疑 ， 甚 全 受到 了 强烈 的 批评 。 即 使 是 Codd 博 士 
工作 的 IBM 公 司 也 是 反对 者 之 一 ， 因 为 他 们 拥有 一 系列 围绕 

IMS 的 是 有 和 翁 利 能 力 的 产品 ， 不 需要 一 个 问 入 者 来 分 靠 料 。 


不 过 如 今 ， 关 系 模 型 已 经 无 可 辩驳 地 坐 上 了 数据 世界 中 的 头 把 
交椅 。SQL 获 得 了 广泛 的 支持 和 很 好 的 理解 ， 大 学 的 入 门 课 程 
就 会 讲授 SQL 与 关系 数据 库 。 甚 至 4.95 美 元 1 月 就 可 以 租 到 有 
免费 数据 库 的 互联 网 主机 。 我 们 最 终 使 用 什么 数据 库 通 常 由 组 
织 的 架构 标准 而 定 。 即 使 没有 这 样 的 标准 ， 学 习 一 下 组 织 结构 
已 经 有 了 什么 数据 库 平 台 仍 是 明智 的 。 我 们 的 开发 和 架构 方面 
的 同事 都 有 相当 难得 的 知识 积累 。 


仅仅 是 出 于 渗透 或 是 惯性 ， 我 们 多 年 来 都 已 经 习惯 了 关系 型 数 
据 库 是 一 个 四 海 一 家 的 解决 之 道 。 


因此 ， 也 许 真 正 的 问题 不 是 “关系 数据 库 有 什么 问题 >， 而 
征 “ 你 有 什么 问题 要 解决 ”。 


也 惑 是 资 ， 要 确保 你 的 解决 方案 和 你 的 问题 相 匹配 。 关 系 型 数 
























































气 库 确实 在 解决 很 多 问题 时 非常 有 效 。 


如 果 你 并 未 面 对 大 规模 、 弹 性 扩展 的 问题 ， 那 么 对 于 Cassandra 
之 类 的 复杂 系统 的 取舍 完全 没有 考虑 的 必要 。 据 我 所 知 ， 没 有 
任何 一 位 Cassandra 的 文 持 者 会 要 求 别 人 丢 抒 他 们 的 所 有 关系 型 
数据 库 的 知识 、 放 弃 他 们 多 年 来 对 于 这 类 系统 的 难得 的 经 验 ， 
或 是 破坏 他 们 的 员工 花费 数 月 时 间 精 心 构建 起 来 的 系统 。 


关系 型 数据 库 长 期 以 来 很 好 地 服务 于 我 们 这 些 开 发 者 和 DBA。 
但 是 由 于 互联 网 ， 特 别 是 社会 化 网 络 的 爆炸 性 发 展 ， 相 应 的 必 
须要 处 理 的 数据 量 也 在 增长 。 当 Tim Berner-Lee 在 20 世 纪 90 年 
代 初 构建 Web 的 时 候 ， 只 是 为 了 物理 实验 室 里 的 博士 们 交流 科 
学 文档 而 已 。 如 今 ， 互 联网 已 经 无 处 不 在 了 ， 从 最 初 的 那些 科 
学 家 到 在 网 上 交流 小 猫 图 片 与 表情 符号 的 5 岁 小 孩 ， 每 个 人 都 
在 使 用 互联 网 。 这 意味 着 互联 网 业 必 人 然 要 支持 海量 的 数据 ， 事 
实 上 ， 这 也 成 为 了 Web 巧 夺 天 工 的 架构 的 不 朽 丰 碑 。 


不 过 ， 有 些 基 础 设施 已 经 开始 力不从心 了 。 


在 1966 年 ， 像 IEBM 这 样 的 公司 可 以 向 世界 传播 他 们 的 创新 。 他 
们 自己 有 问题 ， 也 拥有 解决 问题 的 能 力 。 但 当 我 们 进入 21 世 纪 
第 二 个 十 年 的 时 候 ， 我 们 也 开始 看 到 类 似 的 创新 了 ， 不 过 这 些 
创新 来 自 于 像 Facebook 和 Twitter 这 样 的 年 轻 公 司 。 


所 以 ， 真 正 的 问题 可 能 也 不 是 “我 有 什么 需要 解决 的 问题 >， 而 
是 “如 果 数 据 不 是 问题 ， 那 么 应 该 怎么 来 处 理 这 些 数据 *"。 如 果 
能 够 轻易 做 到 容错 、 路 数据 中 心 可 用 性 、 可 调整 的 一 致 性 ， 以 
及 高 达 上 昌 TB 的 超大 规模 、 多 种 可 选择 的 客户 端 语 言 ， 又 会 
怎样 ? 你 可 能 会 说 ， 你 不 需要 那 种 可 用 性 或 是 那个 水 平 的 可 打 - 
展 性 ， 而 且 你 最 清楚 你 的 系统 需求 。 你 当然 是 对 的 ， 因 为 事实 
上 ， 如 果 你 的 数据 库 不 能 满足 当前 对 数据 库 的 需求 ， 那 么 你 的 
系统 是 根本 无 法 工作 的 。 



































我 无 意 通 过 诡辩 来 说 服 你 采用 一 个 像 Apache Cassandra 这 样 的 
非 关 系 型 数据 库 。 我 只 是 想 介 绍 Cassandra 能 做 什么 、 如 何 做 
到 ， 这 样 你 就 可 以 依 此 来 决策 ， 并 且 如 果 你 发 现 它 可 用 ， 束 可 
以 开始 使 用 它 开 展 实际 工作 了 。 只 有 你 自己 知道 你 的 数据 需求 
是 什么 。 我 不 需要 你 重新 考虑 自己 的 数据 库 ， 除 非 你 已 经 被 数 
据 库 问题 折腾 得 苗 不 堪 言 7 了， 或 是 你 需要 扩展 数据 库 却 无 能 大 
力 ， 或 是 你 的 数据 模型 无 法 足够 灵活 地 匹配 你 的 应 用 需求 。 我 
并 不 要 求 你 考虑 你 的 数据 库 ， 但 请 考虑 你 的 组 织 结构 ， 它 未 来 
的 目标 和 它 将 要 面临 的 问题 。 如 果 你 能 收集 到 有 关 疝 业 目 标的 
更 多 数据 的 话 ， 你 会 收集 么 ? 


不 要 问 如 何 让 Cassandra 融 入 你 的 现 有 环境 ， 要 问 你 希望 解决 什 
么 数据 问题 而 不 是 只 关注 现在 数据 存在 的 问题 。 要 问 你 希望 的 
新 型 数据 是 什么 样 的 。 如 果 可 能 的 话 ， 你 想 要 如 何 去 深 入 理解 
你 的 组 织 ? 












































1.20 ”关系 型 数据 库 简 单 回顾 


虽然 你 可 能 已 经 很 熟悉 关系 型 数据 库 管 理 系统 (RDBMS) 

了 ， 我 们 还 是 要 来 关注 一 下 关系 型 数据 库 的 一 些 基本 概念 。 这 
会 让 我 们 了 解 在 分 布 式 系统 ， 尤 其 是 那些 互联 网 规模 的 超大 数 
据 系 统 中 有 关 技 术 折 中 考 碟 的 最 新 理念 。 


1.2.1 RDBMS: 出 类 拔 茜 与 表现 平平 


关系 型 数据 库 在 过 去 的 四 十 年 间 一 统 天 下 的 原因 有 很 多 ， 而 其 
中 的 一 个 重要 原因 便 是 它 有 功能 丰富 、 语 法 简明 的 结构 化 查询 
语言 (SQL) 。SQL 在 1986 年 被 接纳 为 ANSI 标 准 ， 之 后 有 过 多 
个 修订 版 ， 而 且 有 各 个 厂商 带 来 的 专 有 扩展 语法 格式 ， 比 如 微 
软 a 的 PL/SQL， 都 提供 了 各 上 自 附 加 的 针对 其 实 
现 的 特性 。 


SQL 之 所 以 强大 的 原因 有 很 多 。 它 允许 用 户 使 用 语句 来 表述 复 
杂 的 数据 关系 ， 构 成 数据 处 理 语 言 (OML) 来 插入 、 选 择 、 
更 新 、 删 除 、 截 断 和 合并 数据 。 你 可 以 使 用 基于 关系 代数 的 函 
数 进行 丰富 的 操作 ， 比 如 查找 集合 中 的 最 大 或 最 小 值 ， 或 对 结 
果 进 行 过 滤 与 排序 。SQL 语 句 支 持 对 值 进行 分 组 汇聚 并 执行 汇 
总 函数 。SQL 也 提供 了 数据 定义 语言 (DDL) ， 可 以 在 运行 时 
直接 创建 、 修 改 或 删除 schema 结 构 。SQL 还 允许 你 使 用 同样 的 
语法 格式 对 用 户 进 行 授 权 或 取消 授权 。 


另 一 方面 ，SQL 非 常 易 于 使 用 。SQL 的 基本 语法 很 容易 学 习 ， 
这 样 就 为 JQL 和 RDBMS 降 低 了 门槛。 初级 SQL 开发 者 可 以 平 
稳 进 阶 ， 在 软件 行业 ， 人 们 通常 面临 着 快速 的 变化 、 紧 迫 的 交 
付 时 间 和 膨胀 的 预算 ， 在 这 种 压力 下 ， 易 学 易 用 无 疑 是 非常 重 
要 的 。SQL 不 仅 语 法 很 简单 ， 而 且 还 有 包括 直观 的 图 形 界面 在 



















































































内 的 很 多 强大 的 工具 可 以 配合 数据 库 的 使 用 。 


部 分 源 于 SQL 是 一 项 ANSI 标 准 ， 所 以 RDBMS 可 以 很 方便 地 和 
各 种 系统 相 集 成。 所 有 需要 做 的 工作 就 是 为 你 的 语言 编写 一 个 
驱动 ,这 样 就 可 以 以 一 种 可 移植 的 方式 进行 对 接 了 。 如 果 你 要 
改变 你 的 应 用 实现 语言 〈 或 是 换 家 RDBMS 矿 商 ) ， 只 要 你 不 
是 太 过 于 依赖 数据 库 厂商 的 专 有 扩展 ， 通 常 都 不 会 太 困 难 。 


1. 事务 、ACID 和 两 阶段 提交 


除了 上 面 已 经 提 到 的 特性 ，RDBMS 和 SQL 还 支持 事务 。 根 据 
Jim Gray 的 定义 ， 数 据 库 事务 是 一 种 具有 ACID 特征 的 “状态 转 
移 过 程 ” (参考 http:;//research.microsoft.com/en- 
us/um/people/gray/papers/theTransactionConcept.pdf ) 。 事 务 的 
关键 特性 是 它们 会 首先 虚拟 地 执行 ， 并 允许 程序 员 在 任务 的 执 
行 阶段 〈 使 用 ROLLBACK ) 来 撤销 所 有 改动 。 如 果 一 切 运 行 
正常 ， 事 务 就 可 以 可 靠 提 交 。 对 于 事务 的 支持 很 快 就 成 为 了 非 
ee 所 以 我 们 先 来 看 看 事务 到 请 音 
H Ao 


ACID 是 原子 性 (Atomic) 、 一 致 性 〈Consistent) 、 隔 离 性 
(Isolated) 和 持久 性 (Durable) 的 缩写 ， 是 验证 事务 是 否 正 
确 、 是 否 成 功 执行 的 标尺 和 准绳 。 


e 原子 性 


原子 性 的 售 义 是 “要 么 全 有 ， 要 么 全 无 *， 也 就 是 说 ， 执 行 一 个 
语句 时 ， 事 务 中 的 每 个 更 新 都 必须 成 功 才能 称 为 成 功 。 不 存在 
有 的 更 新 成 功 ， 有 的 更 新 不 成 功 的 部 分 失败 状态 。 一 个 最 典型 
的 例子 就 是 在 ATM 机 上 进行 汇 球 服务 ， 汇 球 需 要 从 一 个 账号 

上 取 钱 ， 再 添加 到 另 一 个 账号 里 。 这 个 操作 是 不 可 分 的 ， 两 个 
动作 必须 全 部 成 功 。 












































。 一 致 性 


一 致 性 意味 痢 数 据 必 须 从 一 个 正确 的 状态 转移 到 另 一 个 正确 的 
状态 ， 不 允许 别人 看 到 没有 意义 的 不 同 的 值 。 比 如 ， 如 果 一 个 
事务 试图 删除 一 个 客户 和 她 的 订单 历史 ， 吏 不 应 该 留 下 一 个 订 
单列 指 同 已 经 删除 的 客户 的 主键 ， 否 则 ， 不 一 致 的 状态 可 能 会 
让 某 些 试图 读 订 单 记录 的 操作 出 错 。 


。 隔离 性 


隔离 性 是 指 并 发 执行 的 事务 不 应 该 彼此 依赖 ， 它 们 运行 在 各 目 
的 空间 之 中 。 也 就 是 说 ， 如 果 有 两 个 事务 同时 需要 修改 同一 份 
数据 ， 那 么 其 中 之 一 束 必 须 等 待 男 一 个 完成 之 后 再 操作 。 


。 持 入 性 


且 一 个 事务 成 功 完 成 ， 变 更 就 不 再 丢失 。 这 并 不 意味 着 其 他 
事务 稍 后 不 可 以 修改 同一 数据 ， 而 是 次 写 数据 的 程序 可 以 确信 
变更 在 下 一 个 事务 运行 前 已 经 就 绪 。 


表面 上 看 ， 这 些 属性 似乎 是 显而易见 的 ， 其 至 不 值得 讨论 。 信 
计 所 有 运行 数据 库 的 人 都 相信 ， 更 新 数据 必须 要 花费 一 定时 

间 ， 因 为 执行 更 新 的 关键 点 残 在 于 ， 这 些 数据 也 是 要 被 其 他 人 
读 取 的 。 然 而 ， 进 一 步 的 思考 可 能 让 我 们 希望 找 个 方法 来 调整 
一 点 这 些 属性 ， 略 微 控制 它们 一 下 。 所 谓 “ 互 联网 上 没有 免费 
的 午餐 ”， 一 且 发 现 完 竟 要 为 事务 付出 多 少 代 价 ， 我 们 可 能 束 
会 开始 考虑 ， 是 否 需 要 个 丛 代 方案 了 。 


事务 在 高 负载 下 变 得 非常 困难 。 当 你 开始 尝试 水 平 扩展 一 个 关 
系 型 数据 库 、 让 它 分 布 化 的 时 候 ， 就 必须 要 考虑 分 布 式 事务 
的 问题 了 。 这 里 ， 事 务 不 再 是 一 张 表 或 一 个 库 里 的 简单 操作 
了 ， 而 是 一 个 跨越 多 个 系统 的 操作 。 为 了 继续 保持 事务 ACID 
属性 的 荣誉 "， 你 需要 一 个 精巧 设计 的 跨 节点 的 事务 管理 器 。 



















































































为 了 保证 事务 跨越 多 主机 成 功 执行 ， 人 们 提出 了 两 阶段 提交 
(有 时 被 称 为 2PC， 即 two-phase commit) 。 但 是 因为 两 阶段 
提交 锁 住 了 所 有 的 相关 资源 ， 这 种 方法 只 对 可 以 很 快 完成 的 操 
作 可 用 。 虽 然 很 多 时 候 分 布 式 操作 都 可 以 在 不 足 一 秒 的 时 间 内 
完成 ， 但 情况 并 非 总 是 如 此 。 在 有 些 需 要 跨越 多 台 主 机 的 情况 
下 ， 你 无 法 准确 控制 自己 的 用 时 ， 有 些 需 要 协调 多 个 相关 动作 
的 操作 甚至 可 能 会 耗 时 数 小 时 。 


两 阶段 提交 是 阻塞 式 的 ， 也 就 是 说 客户 问 (竞争 消费 者 ) 必 
须 等 符 前 一 个 事务 完成 ， 人 否则 惑 无 法 访问 阻 赛 了 的 资源 。 两 阶 
段 提 区 需要 等 待 一 个 节点 的 啊 应 ， 但 或 许 这 个 节点 已 经 死 了 。 
当然 ， 可 以 设置 超时 来 允许 事务 协调 节点 发 现 东 个 点 已 经 没 
有 啊 应 了 ， 我 们 可 以 避免 一 直 等 下 去 。 但 是 ， 两 阶段 提交 仍然 
可 能 会 导致 死 循 环 ， 因 为 一 个 市 把 可 以 友 送 一 个 消 恩 给 事务 协 
调 广 把， 声明 目 己 已 经 完成 任务 ， 可 以 提交 了 ， 然 后 它 就 会 等 
竺 协调 市 点 友 回 提交 啊 应 (或 者 如 果 节 后 不 能 提交 ， 束 等 待 回 
退 啊 应 )， 但 如 末 这 时 协调 市 点 宕 机 了， 那么 这 个 不 洱 的 节操 
就 得 永远 等 下 去 了 。 


为 了 解决 两 阶段 提交 的 分 布 式 事务 的 问题 ， 数 据 库 领 域 中 有 人 
提出 了 补偿 的 概念 。 补 偿 在 web 服务 中 非常 常用 ， 简 单 地 说 
就 是 把 操作 立刻 提交 ， 如 果 发 现 了 什么 错误 的 话 ， 就 调用 一 个 
新 的 操作 来 恢复 开始 的 状态 。 


架构 师 们 经 常 要 用 一 些 基本 的 、 众 所 周知 的 补偿 模式 作为 两 阶 
段 提 交 的 将 代 方 案 ， 包 括 失 败 后 核 销 事务 、 放 奔 出 错 事务 以 及 
事后 核对 等 。 男 一 个 蔡 代 两 阶段 提交 的 方法 是 得 到 通知 时 重 试 
出 错 操 作 。 对 于 预定 系统 或 是 股票 销售 记录 系统 ， 这 些 方法 可 
能 无 法 满足 需求 。 但 对 于 其 他 应 用 ， 比 如 计 费 或 是 售票 应 用 ， 
这 是 可 以 接受 的 。 










































































^ Google 的 架构 师 Gregor Hohpe 曾 经 写 过 一 篇 题 为 “ 星 巴 
殉 不 使 用 两 阶段 提交 ”的 非常 精彩 、 被 广泛 引用 的 博客 。 文 
中 介绍 了 现实 世界 中 的 两 阶段 提交 是 多 么 难以 扩展 ， 并 特别 
介绍 了 一 些 蔡 代 方 法 。 这 篇 文章 浅显 、 有 趣 而 富有 局 示 ， 值 
得 一 读 。 链 接地 址 


是 : http://www.eaipatterns.com/ramblings/18_starbucks.html 。 


2PC 给 应 用 开发 者 引入 的 问题 包括 可 用 性 的 损失 和 部 分 出 错时 
导致 的 高 时 延 ， 两 者 都 是 难以 接受 的 。 所 以 一 旦 你 的 事业 发 展 
顺利 ， 需 要 扩展 过 去 的 单机 数据 库 的 时 候 ， 你 必须 要 弄 明 白 如 
何在 保持 ACID 属性 的 同时 处 理 好 跨越 多 台 机 器 的 事务 问题 。 
不 论 你 是 有 10 台 、100 台 还 是 1000 台 数据 库 服务 器 ， 事 务 都 和 
ze 个 节点 上 一 样 需 要 具备 原子 性 。 只 是 这 下 子 任务 要 艰 
巨 得 多 了 。 























2. Schema 


关系 型 数据 库 的 一 个 经 党 被 称赞 的 特性 就 是 它们 提供 了 丰富 的 
schema。 通 过 schema， 你 可 以 使 用 关系 模型 表述 各 种 应 用 领域 
中 的 对 象 。 在 业界 有 很 多 高 级 〈 叉 昂贵 ) 的 工具 ， 如 CA 的 

ERWin Data Modeler 可 以 帮 你 做 到 这 点 。 但 是 ， 为 了 创建 正 

确 、 规 范 的 schema， 你 不 得 不 创建 菜 些 表 ， 来 容纳 一 些 在 应 用 
领域 的 业务 中 并 不 存在 的 对 象 。 比 如 ， 一 个 大 学 的 数据 库 里 可 
能 包含 了 学 生 表 和 课程 表 。 但 因为 这 是 一 个 多 对 多 的 关系 (一 
个 学 生 可 以 同时 修 多 门 课程 ， 而 一 个 课程 同时 会 有 多 名 学 生 

上 ) ， 你 不 得 不 创建 一 个 联合 表 。 这 污染 了 一 个 朴素 的 数据 模 
型 我 们 所 需要 的 其 实 只 是 学 生 和 课程 。 这 也 强迫 我 们 不 得 
不 写 更 复杂 的 SQL 语句 来 将 这 些 表 联合 到 一 起 使 用 。 而 且 join 


语句 可 能 会 很 慢 。 


对 于 不 算 大 的 系统 ， 这 根本 不 是 问题 。 但 是 当 你 需要 在 多 张 表 






































里 同时 处 理 很 多 行 的 时 候 ， 复 杂 的 得 询 和 join 操作 可 能 会 慢 得 
难以 承受 。 


最 后 ， 并 不 是 所 有 的 schema 都 很 好 地 符合 关系 模型 。 在 过 去 10 
年 中 ， 复 杂事 件 处 理 系 统 的 应 用 非常 广泛 ， 它 使 用 一 个 非常 快 
速 的 流 来 表示 状态 变化 。 这 种 系统 常常 用 于 将 运行 时 的 相关 事 
件 与 其 他 可 能 相关 的 事件 进行 对 比 ， 来 分 析 得 到 结论 以 支持 商 
业 决 策 。 虽 然 事件 流 可 以 在 关系 型 数据 库 中 描述 ， 但 这 种 表达 
方式 的 扩展 却 十 分 别扭 。 


如 果 你 是 一 个 应 用 开发 者 ， 应 该 对 很 多 对 象 和 天 系 映 射 
CORMO 框架 非常 熟悉 ， 近 年 来 很 多 此 类 框架 可 以 简化 应 用 
对 象 到 关系 模型 的 映射 难度 。 同 样 ， 对 于 小 系统 ，ORM 非 党 
简单 。 但 ORM 同 样 引 入 了 新 的 问题 ， 比 如 内 存 需 求 大 ， 而 
且 ，ORM 框 架 引 入 的 大 量 染 拙 的 映射 代码 也 污染 了 应 用 的 代 
码 。 下 面 是 一 个 在 Java 中 使 用 Hibernate 来 “减轻 ”编写 SQL 代码 
的 负担 的 例子 : 


QCollectionOfElements 
QJoinTable(name-z"store description", 

joinColumns = QJoinColumn(name-"store code")) 
QMapKey (columns-(QColumn(name-"for store",length-3)]) 
QColumn(name-z"description") 




















private Map getMap() { 
return this.map; 


j 
P APR 





是 不 是 我 们 根本 没有 解决 这 里 的 问题 ? 当然 ， 尤 其 对 于 那些 与 
服务 和 基于 XML 的 应 用 有 大 量 文档 交换 的 系统 ， 并 不 总 能 简 
洁 地 映射 关系 型 数据 库 。 这 更 会 加 剧 这 个 问题 。 

3. 分 片 与 shared-nothing 架 构 


如 果 你 无 法 拆 分 系统 ， 就 无 法 扩展 它 。 





Randy Shoup，eBay 杰 出 架构 师 


另 一 种 用 于 扩展 关系 型 数据 库 的 方法 是 在 系统 架构 中 引入 分 搬 
(sharding) 。 这 种 方法 已 经 在 很 多 大 型 网 站 和 Web2.0 应 用 中 
取得 了 成 功 ， 比 如 eBay， 分 搬 架 构 可 以 文 持 每 天 数 十 亿 次 的 
SQL 和 查询。 分 片 的 思路 就 是 将 数据 拆 分 ， 不 把 所 有 数据 放 到 一 
个 单独 的 服务 器 上 ， 也 不 把 数据 复制 到 集群 中 的 所 有 服务 器 
上 ， 而 是 把 数据 水 平地 进行 分 割 ， 并 分 别 存 放 。 


例如 ， 一 个 关系 型 数据 库 里 有 一 个 很 大 的 顾客 表 。 《从 程序 的 
角度 看 ) 最 省 事 的 扩容 方法 就 是 通过 增加 CPU、 和 内 存 ， 更 换 更 
好 的 硬盘 来 进行 牌 直 扩展 了 ， 可 是 一 旦 你 的 事业 继续 成 功 ， 获 
得 了 更 多 的 用 户 ， 在 某 一 时 刻 ( 可 能 是 达到 上 干 万 行 的 时 
IR) ， 你 可 能 不 得 不 开始 考虑 无 法 增加 更 多 机 絮 的 问题 了 。 下 
加 机 如 的 话 ， 是 否 要 回 所 有 机 器 复制 所 有 数据 ? 或 者 是 否 把 单 
张 顾 客 表 拆 开 ， 每 个 数据 库 只 有 一 部 分 记录 和 相关 的 订单 信 
E? 这 样 ， 当 客户 进行 查询 的 时 候 ， 负 载 将 只 压 在 拥有 相关 记 
录 的 机 右上 ， 而 对 其 他 机 器 不 产生 影响 。 


显然 ， 要 进行 分 片 ， 你 必须 找到 一 个 合理 的 键 值 来 对 记录 进行 
划分 。 比 如 ， 你 可 以 按照 首 字 母 来 进行 划分 ， 把 顾客 记录 分 布 
到 26 台 机 器 上 ， 每 台 机 器 仅 存 储 姓 氏 以 一 个 字母 开头 的 顾客 的 
记录 。 不 过 这 似乎 不 是 一 个 好 的 策略 ， 很 少 有 人 的 姓氏 以 字母 
Q 或 Z 开 头 ， 这 两 台 机 器 会 一 直 很 闲 ， 而 存放 J、M 和 S 开 头 姓 
开 的 顾客 的 机 器 会 一 直 很 性 。 你 还 可 以 以 某 些 数字 来 进行 分 
片 ， 比 如 电话 号 码 、 成 为 会 员 的 日 期 ， 或 是 顾客 所 在 州 的 名 
。 如 何 分 片 完全 取决 于 你 希望 数据 如 何 分 布 。 


字 
这 里 有 三 种 基本 的 确定 分 片 结构 的 策略 。 
e. 按照 特性 或 功能 来 分 厂 


这 是 eBay 的 杰出 架构 师 Randy Shoup 采 用 的 方法 ， 他 曾 在 2006 


















































年 帮助 eBay 建立 了 成 熟 的 架构 ， 可 以 文 持 每 天 数 十 亿 次 查询 。 
使 用 这 个 策略 ， 并 不 是 将 一 个 表 中 的 记录 进行 拆 分 (比如 之 前 
提 到 的 顾客 表 ) ， 而 是 分 成 多 个 功能 上 互相 不 怎么 重 车 的 数据 
库 。 比 如 ， 在 eBay， 用 户 分 到 一 个 分 片 中 ， 而 出 售 的 产品 则 放 
到 另 一 个 分 片 中 。 在 Flixster， 电 影评 分 放 到 一 个 分 片 中 ， 而 评 
论 则 放 到 另 一 个 分 片 里 。 这 个 方法 需要 深入 理解 应 用 领域 ， 才 
能 更 好 地 分 片 。 


e 基于 键 值 的 分 毛 


这 种 方法 需要 在 你 的 数据 中 找到 一 个 可 以 均匀 分 布 到 各 个 分 片 
中 的 键 值 。 不 像 在 刚才 的 例子 中 那样 ， 非 常 幼稚 地 通过 字母 表 
的 方式 简单 进行 分 布 ， 而 应 当 对 一 个 关键 数据 元 素 进行 一 次 单 
问 哈 希 ， 根 据 哈 希 值 将 数据 分 布 到 多 合 机 髓 上 。 这 种 策略 经 名 
会 使 用 一 个 时 间或 是 数值 键 进行 哈 希 。 


。 ARIA 


TEXUNUTILH, RPW- AIARRA HKA, H 
于 查询 哪个 市 点 拥有 用 户 要 访问 的 数据 。 这 种 方法 有 两 个 显 而 
易 见 的 问题 ， 首 先 ， 由 于 每 次 查询 都 需要 进行 查 表 操作 ， 这 会 
影 啊 到 碍 询 的 性 能 ， 其 次 ， 这 个 表 不 仅 会 成 为 一 个 瓶颈 ， 还 可 
能 是 系统 中 的 一 个 单 点 失效 点 。 





























S4 http://lsvp.wordpress.com/2008/06/20 介绍 了 Flixster 是 如 
何 使 用 分 片 集 略 来 改进 网 站 性 能 的 。 


依据 不 同 的 分 片 策略 ， 可 以 减 小 资源 竞争 ， 不 仅 允 许 你 水 平 扩 
展 系统 ， 而 且 可 以 更 精确 地 扩展 ， 因 为 你 可 以 精确 地 提升 特定 
分 厂 的 性 能 。 





分 片 可 以 看 做 是 一 种 shared-nothing 的 数据 库 架 构 。 所 谓 shared- 
nothing 架 构 是 指 分 布 式 系统 中 ， 不 存在 集中 存储 的 〈 共 享 ) 状 
态 ， 也 就 无 需 竞 争 共享 资源 了 。 这 一 概念 是 由 加 州 大 学 伯克利 
分 校 的 Michael Stonebraker 于 1986 年 在 他 的 论文 “The Case for 
Shared Nothing” 中 提出 的 。 


shared nothing 近 来 在 Google 被 发 扬 光 大 了 ， 他 们 实现 了 不 要 共 
享 状态 的 BigTable 数 据 库 和 MapReduce 分 布 式 计算 框架 ， 这 些 
系统 可 以 近乎 无 限 地 扩展 。Cassandra 数 据 库 也 是 shared-nothing 
架构 的 ， 没 有 中 心 控制 节点 ， 也 没有 主 从 之 分 ， 所 有 节点 是 对 


等 的 。 

















“和 你 可 以 在 http://db.cs.berkeley.edu/papers/hpts85- 
nothing.pdf 阅读 这 篇 1986 年 的 论文 “The Case for Shared 
Nothing”。 这 篇 论文 非常 简短 ， 只 有 窒 窗 数 页 。 如 果 你 看 看 
的 话 ， 就 会 发 现 很 多 shared-nothing 分 布 式 系统 架构 的 特征 ， 
诸如 易于 达到 高 可 用 性 和 易于 扩展 到 大 量 节 点 等 都 恰恰 是 
Cassandra 所 擅长 的 。 


MongoDB 还 提供 了 目 动 分 片 能 力 ， 用 于 失效 备 援 和 人 负载 均 
衡 。 很 多 非 关 系 型 数据 库 都 提供 了 这 项 目 动 功能 ， 而 且 用 起 来 
非常 方便 。 手 工 创 建 和 维护 自 定义 的 分 片 是 个 技术 活 。 从 数据 
架构 的 宏观 层面 了 解 分 片 十 分 有 必要 ,但 具体 到 Cassandra， 它 
是 自动 化 的 ， 使 用 了 一 种 类 似 基 于 键 值 分 片 的 方法 ， 将 数据 分 
布 到 不 同 节点 上 。 


4. 小结 
总 之 ， 关 系 型 数据 库 非常 擅长 于 解决 某 些 数据 存储 问题 ， 但 因 


为 其 自身 特点 ， 当 系统 需要 扩展 的 时 候 ， 会 党 到 很 强 的 制约 。 
扩展 时 ， 你 第 常 得 想方设法 避免 Join 操 作 ， 这 意味 看 数据 的 肥 























范式 化 ， 意 味 着 需要 保存 数据 的 多 个 副本 ， 以 及 严重 地 破坏 了 

你 对 数据 库 和 应 用 的 最 初 设 计 。 而 且 ， 你 几乎 必然 要 考虑 分 布 
式 事 务 的 问题 ， 这 很 快 束 将 成 为 一 个 瓶颈 。 除 了 最 昂贵 的 

RDBMS， 其 他 的 都 不 支持 补偿 操作 。 而 即使 你 花费 巨 资 买 了 
最 昂贵 的 数据 库 ， 你 仍然 需要 对 那些 无 法 忽视 分 布 式 事务 的 地 
方 十 分 谨慎 地 选择 分 片 所 使 用 的 键 值 。 


或 许 ， 更 重要 的 是 ， 随 独 我 们 讨论 RDBMS 的 限制 ， 和 随 之 产 
生 的 用 于 克服 扩展 性 问题 所 使 用 的 染 构 策略 ， 一 幅 巨 图 正在 慢 
慢 展 开 。 可 以 看 出 ， 一 些 NoSQL 技 术 或 许 与 我 们 的 最 初 设想 相 
比 其 实 并 不 激进 ， 也 不 算 吓人 ， 倒 更 像 是 一 些 我 们 管理 大 数据 
库 时 惑 在 做 的 工作 的 自然 表达 和 封 疲 。 


1.2.2 ”互联 网 的 规模 
一 个 发 明 必须 对 它 完成 时 的 世界 有 意义 ， 而 非 它 开始 时 的 。 








Ray Kurzweil 


基于 RDBMS 的 一 些 内 在 的 设计 初衷 ， 它 并 不 像 其 他 的 系统 一 
样 那么 容易 进行 扩展 ， 尤 其 是 相 比 于 一 些 新 近 的 ， 在 设计 时 考 
a E E ey 
静态 结构 ， 还 需要 考虑 它 难 以 置信 的 扩张 速度 ， 因 为 随 着 越 来 
BERSE, 我 们 希望 系统 以 E eM 
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SE 有 一 个 不 太 容 易 考 证 的 传说 ，17 世 纪 的 英国 诗人 John 
Milton 阅 读 过 地 球 上 曾经 出 版 过 的 所 有 书 。Milton 精 通 多 种 
语言 〈 他 去 世 前 甚至 还 在 学 习 印 第 安 部 落 纳 瓦 霍 的 语言 ) ， 
而 且 那 个 年 代 每 年 出 版 的 图 书 大 概 是 上 千 册 ， 所 以 ， 全 都 读 
过 也 并 非 不 可 能 。 但 从 那 时 至 今 ， 数 据 的 增 量 就 难以 记述 








f. 


众所周知 ， 互 联网 还 在 快速 发 展 中 。 现 在 让 我 们 花 一 点 时 间 来 
看 看 IDC 的 研究 报告 《扩展 中 的 数字 世界 》 中 的 一 些 数字 。 

(全 文 可 以 在 http:/www.emc.comycollateralanalyst- 
reports/expanding-digital-idc-white-paper.pdf 获得 。 ) 


e YouTube 每 天 播 出 1 亿 段 视频 。 
e Chevron 每 天 积累 2 TB 数据 。 


。2006 年 ， 互 联网 的 总 数据 量 大 约 是 166 EB， 而 到 了 2010 
年 ， 这 个 数字 大 约 是 1000 EB 了 。1 EB 是 1018 字 节 ， 即 110 
万 TB。 更 直观 地 说 ，1 EB 六 约 相当 于 5 万 年 长 的 DVD 男 质 
的 视频 ， 而 166 EB 大 约 是 所 有 图 书 的 信息 量 总 和 的 300 万 
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沃尔玛 的 顾客 交易 数据 库 在 2000 年 大 约 是 110 TB， 每 天 记 
录 大 约 上 千 万 条 。 到 了 2004 年 ， 这 个 数据 库 已 经 有 大 约 
5000 TB f. 


电影 阿 凡 达 的 制作 过 程 中 大 约 需 要 用 到 1PB 的 存储 空间 ， 
如 果 这 是 1 首 MP3 的 话 , 。 可 以 播放 32 年 (K 
源 : http://bitly/736XCz ) 。 


2010 年 5 月 ，Google 每 天 发 售 10 万 部 Android 手 机 ， 所 有 这 
些 手 机 都 以 互联 网 访问 为 基本 服务 。 


在 1998 年 ， 全 球 email 账 号 大 约 有 2.53 亿 个 ， 到 2010 年 ， 这 
一 数字 接近 20 亿 。 


可 见 ， 互 联网 上 需要 存储 、 处 理 与 查询 各 种 数据 ， 使 用 这 些 数 
据 的 业务 也 各 不 相同 ， 不 仅 需要 考虑 零售 供应 丙 们 的 客户 数 





























据 ， 也 不 仅 是 数字 视频 ， 还 有 需要 数字 化 的 电视 节目 、 爆 炸 式 
增长 的 email、 即 时 消息 、 手 机 、 射 频 识 别 CRFID) 、 卫 电话 
(VoIP) ， 等 等 。 现 在 我 们 有 蓝光 播放 器 播放 音频 和 视频 流 。 
随 着 我 们 开始 离开 物理 存储 介质 ， 提 供 媒体 内 容 的 公司 ， 以 及 
在 他 们 外 围 提 供 增 值 服 务 的 第 三 方 ， 都 需要 极为 可 扩展 的 存储 
解决 方案。 再 考虑 一 下 ， 作 为 典型 的 应 用 开发 者 或 数据 库 管 理 
员 ， 我 们 可 能 习惯 于 把 关系 型 数据 库 看 做 是 世界 的 中 心 。 但 其 
实在 企业 中 ，80% 的 数据 都 是 非 结 构 化 的 。 


你 或 许 觉 得 Cassandra 之 类 的 NoSQL 解 决 方案 所 提供 的 大 规模 

与 你 无 关 。 可 能 确实 如 此 ， 可 能 你 并 没有 遇 到 Cassandra 能 帮 有 得 
上 你 的 问题 。 我 也 并 没有 让 你 直接 对 现 有 的 数据 库 和 里 面 的 数 
据 动 手 ， 将 它们 迁移 到 Cassandra。 那 将 是 非常 困难 的 一 项 工 

作 ， 而 且 短 时 间 内 很 难 收 到 回报 。 几 乎 可 以 肯定 ， 你 现 有 的 数 
据 库 是 最 适合 你 的 应 用 系统 的 。 但 如 果 能 够 并 入 更 多 更 丰富 的 
数据 集 ， 来 改进 你 的 应 用 ， 你 希望 数据 库 可 以 有 什么 样 的 品质 
呢 ? 这 个 问题 进一步 转化 为 ， 如 果 有 一 个 可 靠 、 有 弹性 、 可 扩 
展 、 超 大 容量 而 且 写 入 速度 超 快 的 存储 系统 ， 你 希望 你 的 应 用 
变 成 什么 样子 呢 ? 


立足 于 当今 互联 网 的 规模 ， 面 同 未 来 ，Apache Cassandra 可 能 
是 你 的 答案 之 一 。 






































1.3 Cassandra 的 电梯 间 演 讲 


不 论 是 好 羔 坞 的 剧 作 家 还 是 初创 的 软件 公司 ， 都 被 建议 准备 好 
他 们 的 “电梯 间 演 讲 ”。 这 个 演讲 是 他 们 的 产品 的 简洁 介绍 ， 要 
求 是 在 一 两 分 钟 内 简明 扼要 地 介绍 他 们 的 产品 ， 以 便 在 万 一 能 
很 竺 运 地 和 一 个 主管 、 代 理 或 是 投资 人 一 起 挤 上 同一 个 电梯 的 
时 候 ， 能 够 说 服 他 来 投资 这 个 项 目 。Cassandra 如 此 引人入胜 ， 

让 我 们 来 浓缩 一 个 电梯 间 演 说 ， 以 便 你 能 说 服 你 的 经 理 和 同事 


给 Cassandra 一 个 机 会 。 











1.3.1 50 个 字 介 绍 Cassandra 


“Apache Cassandra 是 一 个 开源 的 、 分 布 式 、 无 中 心 、 弹 性 可 扩 
展 、 高 可 用 、 容 错 、 一 致 性 可 调 、 面 向 列 的 数据 库 ， 它 基于 

Amazon Dynamo 的 分 布 式 设计 和 Google BigTable 的 数据 模型 ， 
由 Facebook 创 建 ， 己 经 在 一 些 最 流行 的 网 站 中 取得 了 应 

用 。” 瑞 文 刚 好 50 个 字 ， 中 文 也 不 到 100 个 。 


当然 ， 如 末 你 只 是 在 电梯 里 背 这 些 说 词 给 你 的 老板 的 话 ， 可 能 
只 能 得 到 一 个 日 眼 。 所 以 ， 让 我 们 在 后 面 的 小 市 里 分 别 讨 论 一 
下 这 些 关 键 点 。 


1.3.2 ”分 布 式 与 无 中 心 


Cassandra 是 分 布 式 的 ， 这 意味 着 它 可 以 运行 在 多 台 机 器 上 ， 并 
呈现 给 用 户 一 个 一 致 的 整体 。 事 实 上， 在 一 个 节点 上 运行 
Cassandra 坚 无 意义 。 虽 然 你 确实 可 以 这 么 做 ， 而 且 这 可 以 帮 你 
了 解 它 的 工作 机 制 ， 但 你 很 快 会 意识 到 ， 需 要 多 个 节点 才能 
正 了 解 Cassandra 的 好 处 。 它 的 很 多 设计 和 实现 让 系统 不 仅 可 以 
在 多 节点 上 运行 ， 更 为 多 机 架 部 署 进行 了 优化 ， 甚 至 一 个 









































Cassandra 集 群 可 以 运行 在 分 散 于 各 地 的 多 个 数据 中 心 上 。 你 可 
以 放心 地 将 数据 写 到 集群 中 的 任意 一 人 台 机 器 上 ，Cassandra 都 会 
收 到 数据 。 


对 于 很 多 存储 系统 (如 MySQL，Bigtable〉， 一 旦 你 开始 扩展 
它 ， 束 需要 把 某 些 节 点 设 为 主 节点 ， 其 他 则 作为 从 节点 。 但 
Cassandra 是 无 中 心 的 ， 也 束 是 说 每 个 节点 都 是 一 样 的 ， 没 有 节 
点 会 承担 特殊 的 管理 任务 。 与 主 从 结构 相反 ，Cassandra 的 协议 
是 P2P 的 ， 并 使 用 gossip 来 维护 存活 或 死亡 节点 的 列表 。 


无 中 心 这 一 事实 意味 着 Cassandra 不 会 存在 单 点 失效 。 
Cassandra 集 群 中 的 所 有 节点 的 功能 都 完全 一 样 ， 有 时 这 被 叫 
做 “服务 器 对 称 ”。 与 你 见 过 的 MySQL 、BigTable 这 样 的 主 从 式 
的 系统 不 同 ， 因 为 Cassandra 的 所 有 节点 的 工作 都 是 相同 的 ， 从 
根本 上 就 没有 一 个 特殊 的 主机 作为 主 节点 来 承担 协调 任务 。 


在 很 多 分 布 式 存储 方案 中 (比如 RDBMS 集 群 ，， 你 需要 在 一 
个 叫做 replication 的 进程 里 设置 ， 让 数据 在 不 同 服务 器 上 存放 
多 个 副本 ， 它 会 把 数据 复制 到 多 台 机 器 上 ， 这 样 这 些 机 器 就 可 
以 同时 提供 服务 ， 从 而 提高 系统 性 能 。 通 常 这 个 进程 不 采用 
Cassandra 这 样 的 无 中 心 设 计 ， 而 是 依照 预先 设 定 的 主 从 角色 
来 工作 。 这 样 ， 这 种 集群 中 的 服务 喜 的 功能 就 不 是 相同 的 。 需 
要 让 集群 中 的 一 个 服务 器 作为 主 节 点 ， 而 其 他 则 作为 从 节点 。 
主 节点 是 最 终 数 据 控 制 者 ， 与 其 他 节点 间 是 单 问 的 数据 同步 关 
系 。 如 果 主 证 点 坏 了 ， 整 个 数据 库 束 难以 为 继 了 。 所 以 ， 无 中 
心 的 设计 是 Cassandra 的 高 可 用 性 的 关键 所 在 。 注 意 ， 虽 然 我 们 
经 党 在 RDBMS 里 看 到 主 从 副本 机 制 ， 但 很 多 NoSQL 数 据 库 也 
是 主 从 结构 的 ，MongoDB 就 是 一 例 。 


忌 之 ， 无 中 心 染 构 有 两 个 关键 优势 : 不 仅 比 主 从 架构 更 简单 ， 


而 且 可 以 避免 系统 宕 机 。 比 起 主 从 结构 的 数据 存储 系统 来 说 ， 
无 中 心 架 构 的 维护 更 方便 ， 因 为 所 有 节操 部 可 以 一 视 同 仁 。 这 



























































也 束 意 味 着 你 不 必 为 扩展 来 考虑 更 多 的 东西 ， 搭 建 一 个 50 个 节 
点 的 系统 和 搭建 一 个 单 节点 的 系统 没什么 区 别 。 也 没有 什么 配 
置 上 的 特别 需求 来 支持 节点 扩展 。 更 进一步 ， 对 于 主 从 结构 来 
说 ， 主 节点 很 容易 出 现 单 点 失效 (SPOF) 。 要 想 避 免 单 点 失 
效 ， 你 负 和 党 需要 增加 系统 的 复杂 上 度 ， 构 成 多 主 节 点 。 而 因为 所 
有 Cassandra 的 节点 都 是 一 样 的 ， 损 失 任 何 一 个 节点 对 系统 服务 
都 没什么 大 影 啊 。 


综 上 所 述 ， 因 为 Cassandra 是 分 布 式 、 无 中 心 的 ， 它 不 会 有 单 点 
失效 ， 所 以 支持 高 可 用 性 。 


1.3.3 ”弹性 可 扩展 


可 扩展 性 是 指 系 统 染 构 可 以 让 系统 提供 更 多 的 服务 而 不 降低 使 
用 性 能 的 特性 。 仅 仅 通 过 给 现 有 的 机 器 增加 硬件 的 容量 、 内 存 
进行 垂直 扩展 ， 征 最 简单 的 达到 可 扩展 性 的 手段 。 而 水 平 扩展 
则 需要 增加 更 多 机 堪 ， 每 台 机 融 提 供 全 部 或 部 分 数据 ， 这 样 所 
有 主机 都 不 必 有 负担 全 部 业务 请 求 。 但 软件 目 己 需要 有 内 部 机 制 
来 保证 集群 中 市 点 间 的 数据 同步 。 


弹性 可 扩展 是 指 水 平 扩展 的 特性 ， 意 即 你 的 集群 可 以 不 间断 
服务 地 扩展 或 缩减 规模 。 要 做 到 这 点 ， 集 群 必须 能 够 在 不 大 幅 
修改 或 重新 配置 的 情况 下 ， 接 收 那些 新 加 入 、 获 得 全 部 或 部 分 
数据 的 节点 ， 让 它们 开始 提供 服务 。 你 不 需要 重新 局 动 进 程 ， 
不 必修 改 应 用 的 查询 ， 也 无 需 自 己 手工 重新 均衡 数据 分 布 。 在 
Cassandra 里 ， 你 只 要 加 入 新 的 计算 机 ，Cassandra 就 会 自动 地 
发 现 它 并 开始 让 它 工 作 。 


当然 ， 缩 减 规模 意味 独 你 要 从 集群 中 移 走 部 分 处 理 能 力 。 当 你 
的 应 用 要 迁移 到 别 的 平台 上 ， 或 是 应 用 失去 用 户 ， 你 不 得 不 卖 
挥 部 分 人 硬件 的 时 候 ， 你 可 能 不 得 不 这 么 做 。 让 我 们 祈福 这 永远 
都 不 会 发 生 吧 。 不 过 万 一 要 是 发 生 了 ， 你 也 不 需要 为 规模 的 缩 
























































减 来 让 整个 系统 变 得 混乱 不 堪 。 
13.4 ”高 可 用 与 容错 


从 一 般 架 构 的 角度 看 ， 系 统 的 可 用 性 是 由 满足 请 求 的 能 力 来 量 
度 的 。 但 计算 机 可 能 会 有 各 种 各 样 的 故障 ， 从 硬件 器 件 故 障 到 
网 络 中 断 都 有 可 能 。 任 何 计 算 机 都 可 能 发 生 这 些 情况 。 当 然 有 
菏 些 非常 复 洒 《〈 通 种 也 特别 昂 贯 ) 的 计算 机 可 以 自己 应 付 很 多 
情况 ， 它 们 一 般 都 有 硬件 元 余 ， 并 在 发 生 故 障 事 件 的 情况 下 会 
目 动 啊 应 并 进行 热切 换 。 但 任何 人 都 可 能 会 偶然 碰 断 以 太 网 
线 ， 这 时 一 个 单独 的 数据 中 心 就 会 有 灾难 发生 ， 这 些 都 是 无 法 
避免 的 。 所 以 ， 对 于 一 个 需要 高 可 用 的 系统 ， 它 必须 由 多 台 联 
网 的 计算 机 构成 ， 并 且 运 行 于 其 上 的 软件 也 必须 能 够 在 集群 条 
件 下 工作 ， 有 设备 能 够 识别 节点 故 隐 ， 并 将 发 生 故 障 的 中 断 的 
功能 在 剩余 系统 上 进行 恢复 。 


Cassandra 承 是 高 可 用 的 。 你 可 以 在 不 中 断 系 统 的 情况 下 蔡 换 故 
障 节 点 ， 还 可 以 把 数据 分 布 到 多 个 数据 中 心里 ， 从 而 提供 更 好 
的 本 地 访问 性 能 ， 并 且 在 某 一 数据 中 心 发 生火 灾 、 潜 水 等 不 可 
抗灾 难 的 时 候 防 止 系 统 彻底 次 痪 。 


1.3.8 ”可 调节 的 一 人 至 性 


一 致 性 的 基本 含义 是 读 操作 一 定 会 返回 最 新 写 入 的 结果 。 考 
虑 电子 商务 网 站 的 两 个 客户 同时 要 把 一 个 商品 放 到 他 们 的 购物 
车 里 的 情景 。 如 宁 我 在 你 刚刚 拿 走 最 后 一 个 商品 的 时 候 也 要 把 
商品 放 到 上 自己 的 购物 车 里 ， 那 么 你 应 该 得 到 这 个 商品 ， 而 我 应 
该 被 告知 商品 已 经 售 完了 。 在 把 状态 一 致 地 写 到 所 有 有 此 数据 
的 布点 的 时 候 ， 这 点 是 得 到 保证 的 。 


但 是 ， 天 下 没有 免费 的 午餐 ， 后 面 我 们 还 会 看 到 ， 扩 展 数据 存 







































































储 系 统 就 意味 着 我 们 不 得 不 在 数据 一 致 性 、 节 点 可 用 性 和 分 区 
耐 受 性 之 间 做 某 些 折衷 。Cassandra 常 被 称 作 是 “最 终 一 致 性 ”， 
这 实际 有 点 让 人 误解 。 简 单 地 说 ，Cassandra 牺 牲 了 一 点 一 致 性 
来 换取 了 完全 的 可 用 性 。 但 是 Cassandra 实 际 更 应 该 表述 为 “可 
调 一 致 性 ”>， 它 允许 你 来 方便 地 选 定 需要 的 一 致 性 水 平 与 可 用 
性 水 平 ， 在 二 者 间 找 到 平衡 点 。 


“最 终 一 致 性 "这 个 名 词 让 业界 有 些 骚动 ， 一 些 人 对 于 一 个 被 称 
为 “最 终 一 致 "的 系统 非常 不 放心 ， 这 里 让 我 们 来 具体 解读 一 











最 终 一 致 性 的 批评 者 有 一 个 比较 客 容 的 说 法 。 或 许 最 终 一 致 性 
对 社交 应 用 可 能 还 可 以 ， 因 为 数据 并 不 那么 重要 。 毕 苋 你 给 妈 
妈 贴 出 了 小 Billy 吧 了 什么 早餐 这 样 的 事情 即使 丢 了 也 没什么 大 
不 了 的 。 但 我 的 数据 却 非常 重要 ， 在 我 的 数据 模型 里 ， 绝 对 不 
会 允许 最 终 一 致 性 这 种 可 笑 的 事情 发 生 。 


可 是 事实 上 ， 大 部 分 最 流行 的 网 络 应 用 〈( 亚 蕊 还 、Facebook、 
Google. Twitter) 都 在 使 用 这 一 模型 ， 它 应 该 确实 有 可 取 之 

处 。 这 些 数 据 对 于 运营 这 些 应 用 的 公司 来 说 也 应 该 是 非常 重要 
的 ， 毕 竟 这 是 他 们 赖 以 生存 的 产品 ， 而 且 这 些 公 司 在 竞争 如 此 
激烈 的 世界 里 已 经 成 长 为 数 十 亿美 元 营 收 的 巨头 ， 拥 有 几 十 亿 
用 户 。 或 许 真 的 有 系统 可 以 保障 在 这 样 一 个 高 流量 、 接 入 不 同 
网 络 的 系统 里 ， 能 够 得 到 即时 、 有 保障 而 且 完 美的 一 致 性 ， 不 
过 你 现在 可 能 还 找 不 到 这 样 的 完美 系统 。 


批评 者 们 抱怨 Cassandra 之 类 的 海量 数据 库 只 文 持 最 终 一 致 性 ， 
而 其 他 分 布 式 系统 可 以 文 持 严 格 一 致 性 。 但 是 世界 如 此 丰富 
多 彩 ， 事 实 也 从 来 不 是 非 黑 即 白 ， 要 么 一 致 、 要 么 不 一 致 这 样 
的 二 元 论 并 不 能 真实 地 反映 实际 情况 。 实 际 上 一 致 性 也 是 有 很 
多 不 同 级 别 的 ， 而 且 在 真实 世界 里 ， 一 致 性 也 会 受到 不 同 外 部 
环境 的 极 大 影 啊 。 





















































最 终 一 致 性 是 架构 师 们 可 选 的 多 种 一 致 性 模型 中 的 一 个 。 让 我 
们 现在 来 看 看 这 些 做 了 不 同 折 中 的 模型 。 


。 严格 一 致 性 


有 时 也 叫做 顺序 一 致 性 ， 是 最 严格 的 一 致 性 要 求 。 它 要 求 所 有 
读 操作 总 是 返回 最 新 的 写 结果 。 这 上 听 起 来 很 好 ， 似 乎 确实 是 我 
们 所 需要 的 。 束 选 它 好 了 ! 但 是 ， 再 仔细 看 看 ， 我 们 还 会 看 到 
什么 ?“ 最 新 的 写 结果 ”到 故意 味 看 什么 ?最 新 写 给 谁 的? 在 一 
个 单 处 理 器 的 机 邢 里 ， 不 会 看 出 任何 问题 ， 因 为 无 论 如 何 操作 
都 会 逐一 顺序 进行 。 但 是 ， 当 系统 分 布 在 位 置 分 散 的 多 个 数据 
中 心 的 时 候 就 变 得 不 那么 可 靠 。 要 达到 严格 一 致 性 ， 需 要 某 种 
全 局 锁 机 制 来 给 每 个 操作 加 上 一 个 时 间 惟 ， 不 论 数据 位 于 何 

处 ， 用 户 位 于 何 处 ， 也 不 论 得 到 啊 应 需要 访问 多 少 服务 ， 而 且 
这 些 服务 还 可 能 是 分 散 的 。 


。 因 采 一 致 性 


这 种 一 致 性 模型 比 严 格 一 致 性 稍 弱 。 这 种 模型 消除 了 弥 想 中 的 
再 要 同步 一 切 操作 的 单一 的 全 局 锁 ， 避 免 了 无 法 承受 的 瓶颈 。 
因果 一 致 性 不 依赖 于 时 间 戳 ， 它 使 用 更 为 语义 化 的 方法 ， 符 试 
去 判断 事件 的 原因 ， 并 按照 因果 关系 来 达到 一 致 性 。 这 意味 着 
潜在 相关 的 写 操作 必须 被 顺序 读 出 。 如 下 两 个 彼此 无 关 的 不 同 
操作 同时 写 同一 个 域 ， 那 么 这 些 写 操作 可 以 被 推 师 出 并 不 是 因 
朵 相关 的 。 而 如 末 一 个 操作 紧 接着 一 个 进行 ， 这 可 能 束 是 因果 
相关 的 了 。 因 采 一 致 性 要 求 ， 相 关 的 写 操作 必须 被 顺序 读 出 。 


e Sg SUE Cg SUE) 
最 终 一 致 性 从 字面 上 解释 就 是 更 新 终 将 传播 到 整个 分 布 式 系统 


的 每 个 角落 ， 但 这 需要 一 定 的 时 间 。 最 终 ， 所 有 副本 都 会 是 一 
致 的 。 


























当 你 考虑 需要 如 何 才能 达到 更 好 的 一 致 性 的 时 候 ， 最 终 一 致 性 
忽然 变 得 很 有 吸引 力 。 


在 考虑 一 臻 性、 可 用 性 和 分 区 耐 受 性 时 ， 对 于 一 个 给 定 的 系 
统 ， 我 们 只 能 达到 其 中 的 两 个 目标 《我 们 会 在 下 一 节 Brewer 的 
CAP 理 论 来 详细 讨论 这 个 问题 )》。 中 心 问题 实际 是 多 副本 数据 
的 更 新 问题 。 要 达到 强 一 致 性 ， 所 有 副本 上 的 操作 都 必须 同步 
进行 ， 这 就 意味 着 它们 必须 要 阻 罕 ， 锁 定 所 有 的 副本 ， 直 到 操 
作 完 成 ， 这 一 过 程 中 ， 系 统 必须 被 阻塞 ， 锁 定 所 有 的 副本 ， 所 
有 有 苋 搜 关系 的 客户 端 部 不 得 不 等 竺 这 一 操作 的 完成 。 这 个 系 
统 的 副作用 就 是 ， 一 旦 系统 中 的 某 些 节点 出 故障 的 时 候 ， 有 些 
数据 就 成 为 不 可 用 的 了 。 正 如 亚马逊 的 CTO Werner Vogels 所 
VG: “数据 在 被 确定 完全 正确 之 前 都 是 不 可 用 的 ， 而 不 用 去 
试图 解决 答案 的 正确 性 。”( 人 参考 <Dynamo: Amazon's Highly 
Distributed Key-Value 

Store", http://www.allthingsdistributed.com/2007/10/amazons dyr 
; 5820791. ) 


我 们 可 以 换 用 更 乐观 的 方法 来 进行 副本 复制 一 一 为 了 避免 影 啊 
客户 端的 操作 ， 在 后 台 进 行 更 新 的 传播 工作 。 这 种 方法 的 难点 
在 于 ， 现 在 我 们 又 遇 到 如 何 判 晰 和 解雇 冲突 这 个 问题 了 。 在 设 
计 一 个 系统 时 ， 我 们 必须 判断 ， 是 在 读 的 时 候 解 决 冲 突 还 是 在 
写 的 时 候 解决 冲突 。 对 于 一 个 分 布 式 数据 库 的 设计 者 ， 必 须要 
进行 一 个 抉择 一 一 数据 库 应 该 总 是 可 读 的 还 是 总 是 可 写 的 。 


Dynamo 和 Cassandra 的 选择 是 总 是 可 写 ， 而 把 判断 冲突 的 问题 
留 给 了 读 操 作 ， 从 而 获得 了 很 好 的 性 能 增益 。 男 一 种 方案 可 能 
会 在 网 络 或 服务 器 发 生 故 障 的 时 候 拒 绝 更 新 操作 。 

在 Cassandra 中 ， 一 致 性 并 非 一 个 “要 么 全 有 ， 要 么 全 无 ?问题 ， 


我 们 或 许 应 该 更 精确 地 称 之 为 "可 调 的 一 致 性 ”， 因 为 客户 端 可 
以 控制 在 更 新 到 达 多 少 个 副本 之 前 ， 必 须 阻 塞 系统 。 这 是 通过 






























































设置 副本 因子 (replication factor? 来 调节 与 之 相对 的 一 致 性 级 
3l « 


通过 副本 因子 (replication factor) ， 你 可 以 决定 准备 牺牲 多 
少 性 能 来 换取 一 致 性 。 副 本 因子 是 你 要 求 更 新 在 集群 中 传播 到 
的 节点 数 〈 注 意 ， 更 新 包括 所 有 增加 、 删除 和 更 新 操作 ) 。 


客户 端 每 次 操作 还 必须 设置 一 个 一 致 性 级 别 (consistency 
level) 参数 ， 这 个 参数 决定 了 多 4 少 个 副本 写 入 成 功 才 可 以 认定 
写 操作 是 成 功 的 ， 或 者 读 取 过 程 中 读 到 多 少 个 副本 正确 就 可 以 
认定 是 读 成 功 的 。 这 里 ，Cassandra 把 决定 一 致 性 程度 的 权利 留 
给 了 客户 自己 。 


所 以 ， 如 果 需 要 的 话 ， 你 可 以 设 定 一 致 性 级 别 和 副本 因子 相 

等 ， 从 而 达到 一 个 较 高 的 一 致 性 水 平 ， 不 过 这 样 就 必须 付出 同 
步 阻塞 操作 的 代价 ， 只 有 所 有 节点 都 被 更 新 完成 才能 成 功 返 回 
一 次 更 新 。 而 实际 上 ，Cassandra 一 般 都 不 会 这 么 来 用 ， 原 因 显 
而 易 见 《这 样 就 丧失 了 可 用 性 目标 ， 影 响 性 能 ， 而 且 这 不 是 你 
选择 Cassandra 的 初衷 ) 。 而 如 果 一 个 客户 端 设 置 一 致 性 级 别 低 
于 副本 因子 的 话 ， 即 使 有 市 点 宕 机 了 ， 仍 然 可 以 写成 功 。 
































1.3.6 ”Brewer 的 CAP 理 论 


要 理解 Cassandra 的 设计 和 它 所 谓 的 “最 终 一 致 性 "数据库 ， 我 们 
首先 需要 了 解 一 下 CAP 理 论 。CAP 理 论 由 Eric Brewer 提 出 ， 所 
以 有 时 又 被 称 为 Brewer 理 论 。 


2000 年 ， 当 时 在 加 州 大 学 伯克利 分 校 工作 的 Eric Brewer 在 
ACM 分 布 式 计算 原理 会 议 上 提出 了 CAP 理 论 。 依 据 这 个 理 
论 ， 在 一 个 大 规模 分 布 式 数据 系统 中 ， 有 三 个 需求 是 彼此 循环 
依赖 的 : 一 致 性 、 可 用 性 和 分 区 耐 受 性 。 

e 一 致 性 〈Consistency ) 


对 于 所 有 的 数据 库 客户 端 使 用 同样 的 查询 都 可 以 得 到 同样 的 结 
末 ， 即 使 是 有 并 发 更 新 的 时 候 也 是 如 此 。 


。 可 用 性 CAvailability) 
所 有 的 数据 库 客 户 端 总 是 可 以 读 写 数 据 。 
e。 分 区 耐 受 性 (Partition Tolerance? 


数据 库 可 以 分 散 到 多 台 机 器 上 ， 即 使 发 生 网 络 故障 ， 被 分 成 多 
个 分 区 ， 依 然 可 以 提供 服务 。 


Brewer 理 论 是 说 ， 对 于 任意 给 定 系 统 ， 只 能 强化 这 三 个 特性 中 
的 两 个 。 这 很 类 似 于 软件 开发 中 的 名 言 : “你 可 以 让 软件 很 
好 ， 让 它 很 快 ， 或 者 很 便宜 : 不 过 三 个 里 面 你 只 能 选择 两 
pe” 





























由 于 循环 依赖 关系 ， 我 们 不 得 不 在 它们 之 中 做 出 选择 。 比 如 ， 
你 期 望 获得 更 强 的 一 任性 ， 那 可 能 整 只 能 拥有 较 低 的 分 区 耐 受 








性 ， 除 非 你 在 可 用 性 上 做 一 些 让 步 。 


CAP 理 论 在 2002 年 被 MIT 的 Seth Gilbert 和 Nancy Lynch 所 证 明 。 
不 过 ， 在 分 布 式 系 统 中 你 将 不 得 不 面 对 网 络 分 区 的 问题 ， 而 且 
在 某 些 时 候 ， 机 器 也 常常 出 现 故 障 ， 从 而 导致 菜 些 节点 不 可 

达 。 丢 包 同 样 是 与 生 俱 来 的 问题 。 所 以 ， 我 们 可 以 得 到 结论， 
一 个 分 布 式 系统 必须 尽力 在 网 络 发 生 分 裂 的 情况 下 继续 工作 

(具有 分 区 耐 受 性 ) ， 这 样 我 们 实际 上 只 能 在 剩 下 的 两 个 特性 
里 二 选 一 : 可 用 性 或 是 一 致 性 。 


如 图 1-1 所 示 ， 三 个 特性 没有 相互 区 又 的 区 域 。 





























sae 


' 


图 1-1: CAP 理 论 指 出 ， 同 时 只 能 具有 这 三 个 特性 中 的 两 个 


通过 图 示 来 观看 每 个 不 同 的 非 关 系 型 数据 存储 系统 在 CAP 图 谱 
中 排 在 什么 位 置 ， 可 能 更 有 助 于 理解 这 个 概念 。 图 1-2 是 在 
2009 年 MongoDB 的 创始 人 和 CEO，Dwight Merriman 在 纽约 
MySQL 用 户 组 演讲 的 幻灯 片 的 基础 上 绘制 的 (你 可 以 在 
http://bit.ly/7r6kRg 得 看 这 个 约 灯 片 ) 。 这 里 ， 我 根据 我 的 研究 
修改 了 某 些 系统 在 图 中 的 位 置 。 























图 1-2 显 示 了 我 们 本 章 中 讨论 的 几 种 不 同 数据 库 系 统 的 关注 焦 
点 。 注 意 ， 图 中 的 数据 库 的 位 置 与 其 具体 配置 有 关 。 正 如 Stu 
Hood 指 出 的 ， 一 个 分 布 式 MySQL 数 据 库 只 有 在 使 用 了 Google 
的 同步 复制 补丁 的 时 候 才 可 以 被 认为 是 一 致 的 系统 ， 耕 则 ， 它 
应 该 只 能 被 看 做 是 可 用 和 分 区 耐 受 的 系统 。 
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亚马逊 Dynamo 的 衍生 品 : 
Cassandra, Voldemort, 
CouchDB Riak 


MySQL, SQL Server, 
Postgres 


M 
Neo4J. Google Bigtable 和 
Bigtable derivatives; MongoDB HBase、 
Hypertable. Redis 


图 1-2: 数据 库 在 CAP 连 线 上 的 位 置 


非常 有 趣 的 一 点 是 ， 一 个 系统 在 CAP 体 系 中 所 处 的 位 置 和 一 个 
存储 机 制 最 初 被 友 明 时 想 要 解决 的 问题 ， 两 者 并 不 一 定 是 一 致 
的 ， 比 如 ，CP 边 上 既 有 图 数据 库 ， 也 有 面 同文 档 的 数据 库 。 


在 这 张 图 里 ， 关 系 型 数据 库 通 币 会 在 一 致 性 和 可 用 性 的 连 线 
上 ， 这 意味 痢 它 们 在 网 络 失 效 的 时 候 《 比 如 网 线 中 断 ) 都 会 无 
法 工作 。 这 通常 是 由 于 设置 了 一 个 单 主 节 点 造成 的 ， 因 为 主 节 
点 可 能 发 生 故 障 ， 其 他 的 一 组 服务 器 也 可 能 没有 足够 的 机 制 让 
它们 在 网 络 分 列 的 情况 下 能 继续 提供 服务 。 


诸如 Neo4J 之 类 的 基于 图 的 数据 库 和 或 多 或 少 沿 玲 自 Google 的 
BigTable 的 设计 的 数据 库 〈 如 MongoDB、HBase、Hypertable 以 











及 Redis) 全 都 较 少 地 关注 可 用 性 ， 更 多 地 强调 一 致 性 和 分 区 
耐 受 性 。 





ky 如 宁 你 对 海量 数据 存储 或 是 NoSQL 数 据 库 的 特性 有 兴 
趣 ， 可 以 看 一 下 本 书 附录 。 


最 后 ， 包 括 Cassandra、Voldemort、CouchDB 和 Riak 在 内 的 沿 
检 自 Amazon 的 Dynamo 的 设计 的 数据 库 都 更 强调 可 用 性 和 分 区 
耐 受 性 。 不 过 ， 这 并 不 意味 着 它们 认为 一 人 致 性 不 重要 ， 它 们 人 铭 
弃 的 一 怪 性 并 不 比 Bigtable 舍 弃 的 可 用 性 更 多 。 按 照 Bigtable 的 
论文 ，“ 某 些 ” 数 据 的 平均 不 可 用 时 间 大 约 为 0.0047% 论文 第 4 
WD ， 这 束 是 说 ， 这 些 特性 都 是 相对 的 ， 因 为 我 们 是 在 讨论 一 
些 己 经 非常 可 靠 的 系统 。 你 可 以 把 (C, A, PO 三 个 字母 看 做 
是 几 个 旋钮 ， 按 照 你 自己 的 需求 来 调节 系统 ，Dynamo 类 的 系 
统 倾 问 于 那些 可 以 容忍 “最 终 一 致 性 ”的 场合 ， 这 里 的 “最 终 ? 实 
际 也 就 是 至 秒 级 的 时 间 ， 读 时 修复 意味 着 读 操作 可 以 返回 一 致 
的 结果 ， 而 且 如 果 需 要 ， 你 也 可 以 达到 强 一 致 性 。 


那么 ， 实 际 上 ， 在 CAP 中 只 能 三 选 二 到 底 意 味 着 什么 呢 ? 

e CA 

主要 支持 一 致 性 和 可 用 性 ， 这 意味 着 你 很 可 能 使 用 了 两 阶段 提 
交 的 分 布 式 事务 。 也 就 是 说 ， 如 果 网 络 发 生 分 裂 ， 那 么 系统 可 
能 会 停止 啊 应 ， 这 也 意味 着 你 的 系统 很 可 能 被 限制 在 一 个 数据 
中 心 集群 以 降低 网 络 分 区 发 生 的 可 能 性 。 如 果 你 只 需要 这 个 级 
别 的 规模 扩展 ， 那 么 可 以 选择 CA 取向 的 系统 ， 它 较 易于 管 
理 ， 人 允许 你 使 用 简 香 而 且 就 悉 的 结构 。 


e CP 









































主要 文 持 一 致 性 和 分 区 耐 受 性 ， 你 可 以 通过 改进 系统 架构 ， 设 
置 数 据 分 片 来 提升 可 扩展 性 。 你 的 数据 将 保持 一 致 性 ， 但 如 果 
有 节点 发 生 故 隐 ， 仍 然 会 有 部 分 数据 无 法 访问 〈 不 可 用 ) 。 


e AP 


主要 支持 可 用 性 和 分 区 耐 受 性 ， 你 的 系统 可 能 返回 不 太 精 确 的 
数据 ， 但 系统 将 始终 可 用 ， 即 使 是 网 络 发 生 分 区 的 时 候 也 是 如 
此 。DNS 可 能 是 这 类 系统 中 最 为 兰 名 的 例子 了 ， 这 类 系统 可 扩 
展 性 非常 强 ， 遍 可 用 ， 而 且 上 其 有 分 区 耐 受 性 。 























人治 注 意 ， 这 里 的 介绍 是 要 给 出 一 个 概观 ， 以 便 从 比较 高 
的 维度 来 对 这 些 系 统 进行 比较 ， 但 实际 系统 的 区 分 并 不 是 这 
么 绝对 。 比 如 ，Google 的 BigTable 在 这 个 体系 中 究竟 应 该 放 
在 什么 位 置 就 并 不 确切 。Google 的 文件 中 声称 BigTable 是 “高 
可 用 的 "， 不 过 在 文件 后 面 的 部 分 却说 ， 如 果 
Chubby〈BigTable 的 持久 化 锁 服 务 ) 由 于 服务 故障 或 是 网 络 
问题 持续 不 可 用 超过 一 段 时 间 的 话 ，BigTable 将 变 得 “不 可 
用 ”( 论 文 第 4 节 ) 。 对 于 读 操 作 ， 文 件 说 ,，“ 我 们 没有 考虑 
数据 的 多 个 副本 和 其 他 由 于 视图 或 是 索引 造成 的 不 同形 式 的 

副本 的 可 能 性 。” 最 后 ， 文 件 指出 “BigTable 不 想 解决 中 心 
控制 和 拜占庭 容错 ”〈 第 10 节 ) 。 由 于 这 些 不 太一 致 的 信 
恩 ， 你 可 以 发 现 确 定 一 个 数据 库 的 CAP 到 底 在 什么 样 的 水 平 
并 不 是 一 门 精确 科学 。 


1.3.7 面向 行 
Cassandra 经 常 被 看 做 是 一 种 “面向 列 ” 的 数据 库 ， 这 也 并 不 算 


错 。 它 的 数据 结构 不 是 关系 型 的 ， 而 是 一 个 多 维 稀 朴 哈 希 
表 。“ 稀 疏 * 意 味 着 任何 一 行 都 可 能 会 有 一 列 或 者 几 列 ， 但 每 和 




















都 不 一 定 〈 像 关系 模型 那样 ) 和 其 他 行 有 一 样 的 列 。 每 行 都 有 
一 个 唯一 的 键 值 ， 用 于 进行 数据 访问 。 所 以 ， 虽 然 说 Cassandra 
是 面 癌 列 的 数据 库 不 是 什么 错 ， 但 更 确切 地 说 ， 应 该 把 
Cassandra 看 做 是 一 个 有 索引 的 、 面 同行 的 存储 系统 ， 第 3 章 会 
更 详细 地 解释 这 个 问题 。 我 把 面 同 数据 当做 是 Cassandra 的 一 个 
特征 ， 因 为 在 非 关 系 型 模型 里 ， 有 多 种 易于 可 视 化 和 使 用 的 数 
据 模 型 ， 而 且 ， 不 考虑 具体 的 应 用 就 把 关系 型 模型 看 做 是 最 佳 
解决 方案 的 结论 下 得 也 为 时 尚 早 。 


Cassandra 的 数据 存储 结构 基本 可 以 看 做 是 一 个 多 维 哈 希 表 。 这 
意味 着 你 不 必 事 先 精 确 地 决定 你 的 具体 数据 结构 或 是 你 的 记录 
包含 哪些 具体 字段 。 这 特别 适合 处 于 草创 阶段 ， 还 在 不 断 增 加 
或 修改 服务 特性 的 应 用 。 而 且 也 特别 适合 应 用 在 敏捷 开发 项 目 
中 ， 不 必 进 行 长 达 数 月 的 预先 分 析 。 对 于 使 用 Cassandra 的 应 
用 ， 如 果 业 务 发 生变 化 了 ， 只 需要 在 运行 中 增加 或 删除 菜 些 字 
段 就 行 了 ， 不 会 造成 服务 中 断 。 


当然 ， 这 不 是 说 你 不 需要 考虑 数据 。 相 反 ，Cassandra 需 要 你 换 
个 角度 看 数据 。 在 RDBMS 里 ， 你 得 首先 设计 一 个 完整 的 数据 
模型 ， 然 后 考虑 查询 方式 ， 而 在 Cassandra 里 ， 你 可 以 首先 思考 
如 何 查 询 数 据 ， 然 后 提供 这 些 数据 束 可 以 了 。 
























































1.3.8 ”无 schema 


你 需要 定义 Cassandra 的 外 层 容 器 keyspace，keyspace 中 包含 了 
若干 列 族 。keyspace 在 逻辑 上 是 容纳 列 族 和 某 些 配 置 属性 的 命 
名 空间 。 列 族 定义 了 相关 的 数据 的 名 字 和 它们 的 排序 方式 。 除 
此 之 外 ， 数 据 表 都 是 稀 玖 的 ， 你 可 以 直接 使 用 需要 的 列 来 添加 
数据 ， 不 需要 预先 定义 列 的 形式 。 在 Cassandra 里 ， 你 不 需要 使 
用 昂贵 的 数据 建 模 工 具 ， 也 不 需要 写 出 复杂 的 包含 join 的 僵 询 
语句 ， 只 需要 按照 得 询 的 需要 来 进行 建 模 ， 之 后 提供 数据 给 应 
用 即 可 。 























1.3.9 ”高 性 能 


Cassandra 在 设计 之 初 承 特别 考虑 了 要 充分 利用 多 处 理 器 和 多 核 
计算 机 的 性 能 ， 并 考虑 在 分 布 于 多 个 数据 中 心 的 大 量 这 类 服务 
器 上 运行 。 它 可 以 一 致 而 且 无 颖 地 扩展 到 数 百 台 机 器 ， 存 储 数 
TB 的 数据 。Cassandra 已 经 显示 出 了 高 负载 下 的 良好 表现 ， 在 

-个 非常 普通 的 工作 站 上 ，Cassandra 也 可 以 提供 非常 高 的 写 吞 
吐 量 。 而 如 果 你 增加 更 多 的 服务 器 ， 你 还 可 以 继续 保持 
Cassandra 所 有 的 特性 而 无 需 牺 牲 性 能 。 











1.4 Cassandra 来 自 何 方 


Cassandra 数 据 存储 系统 是 一 个 Apache 开 源 项 目 ， 位 于 
http://cassandra.apache.org 。2007 年 Facebook 为 了 解雇 消息 收 件 
箱 的 搜索 问题 而 开始 了 Cassandra 项 目 ， 因 为 当时 他 们 遇 到 了 传 
统 的 方法 难以 解决 的 超大 数据 量 存储 的 可 扩展 性 问题 。 有 共 体 说 
来 ， 项 目 团队 需要 处 理 大 量 的 消息 副本 、 消 息 的 反 向 索引 等 不 
同形 式 的 数据 ， 需 要 处 理 很 多 随机 读 和 并 发 随机 写 操作 


这 个 团队 由 Jeff Hammerbacher 领 导 ， 核 心 工 程 师 包 括 Avinash 
Lakshman，Karthik Ranganathan 和 搜索 团队 的 工程 师 Prashant 
Malik。 源 代码 在 2008 年 7 月 公布 到 Google Code 上， 成 为 了 一 
个 开源 项 目 。 但 2008 年 作为 Google Code 的 项 目 时 ， 还 只 有 
Facebook 的 工程 师 在 更 新 项 目 ， 未 形成 社区 力量 。 之 后 ， 在 
2009 年 3 月 ，Cassandra 成 为 了 一 个 Apache 久 化 器 项 目 ， 并 在 
2010 年 2 月 17 日 成 为 了 Apache 顶 级 项 目 。 























* 1* Facebook 的 Lakshman 和 Malik 写 的 关于 Cassandra 的 论 
文 “A Decentralized Structured Storage System” 可 以 在 这 里 访 
问 
http://www.cs.cornell.edu/projects/ladis2009/papers/lakshman- 
ladis2009.pdf . 


如 今 的 Cassandra 似 乎 有 某 种 矛盾 性 : 感 党 上 Cassandra 很 新 很 

激进 ， 但 它 植 根 于 很 多 前 人 建立 和 信奉 的 标准 、 传 统 的 计算 机 
科学 概念 和 信条 中 。Cassandra 是 一 个 实用 主义 的 数据 库 ， 它 并 
不 是 特地 做 得 和 关系 型 数据 库 不 同 来 标新立异 ， 也 不 是 某 几 个 
天 才 的 玩物 。 它 是 被 设计 用 来 解决 现 有 工具 还 不 能 解决 的 实际 
问题 的 。 它 了 解 之 前 方法 的 局 限 性 ， 并 专注 于 新 的 面 同 大 规模 











数据 的 新 世界 。 
Cassandra 如 何 得 名 的 


总 有 人 问 我 Cassandra 从 何 得 名 的 ， 让 我 有 点 奇怪 。 当 我 听 到 
这 个 项 目的 时 候 ， 名 字 并 不 是 我 首先 想到 的 问题 。 不 过 这 确 
实 挺 有 趣 的， 特别 是 对 于 这 个 数据 库 ， 它 的 名 字 确 实 是 有 讲 
2L HJ 


在 希腊 神话 里 ，Cassandra 是 特洛伊 国王 Priam 和 Hecuba 王 后 
的 女儿 。Cassandra 非 常 美丽 ， 以 至 于 阿波 罗 给 了 她 预见 未 来 
的 能 力 。 但 当 她 拒绝 阿波 罗 的 爱 芭 的 时 候 ， 唱 到 他 的 诅 兄 。 
从 此 ， 她 依然 可 以 精确 地 预知 未 来 ， 但 是 不 会 有 任何 人 相信 
她 。Cassandra 预 知 了 她 的 特洛伊 城 终 将 禾 炙 ， 但 却 无 力 阻止 
这 一 莫 剧 。Cassandra 分 布 式 数 据 库 就 据 此 命名 。 我 怀疑 这 个 
名 字 有 点 调侃 德 尔 翡 神 论 CDelphi Oracle? ，Oracle 也 是 用 
先知 命名 的 数据 库 。 





























1.5 Cassandra 的 应 用 场景 


我 们 已 经 介绍 了 Cassandra 的 主要 特点 ， 对 Cassandra 的 长 处 有 
了 一 定理 解 。 尽 管 Cassandra 设 计 精 巧 、 功 能 出 色 ， 但 也 不 能 胜 
任 所 有 工作 。 所 以 ， 这 里 我 们 来 介绍 一 下 Cassandra 最 擅长 的 领 
域 。 


1.5.1 大 规模 部 署 


你 可 能 不 会 开 着 一 辆 轻型 小 卡车 去 取 干 洗 的 衣服 ， 小 卡车 显然 

不 适合 这 种 工作 。Cassandra 的 很 多 精巧 设计 都 专注 于 高 可 用 、 

可 调 一 致 性 、P2P 协 议 、 无 颖 扩展 等 ， 这 些 都 是 Cassandra 的 卖 

0 
J 全 部 能 


但 是 ， 单 节点 关系 数据 库 在 很 多 情况 下 可 能 正 是 我 们 需要 的 。 
所 以 ， 你 需要 做 一 些 评估 。 考 虑 你 期 望 的 流量 、 厨 吐 需求 以 及 
SLA 等 。 关 于 评估 没有 什么 硬性 的 指标 和 要 求 ， 但 如 果 你 认为 
有 几 种 关系 型 数据 库 可 以 很 好 地 应 付 你 的 流量 ， 提 供 不 错 的 性 
能 ， 那 可 能 选 关 系 型 数据 库 更 好 ， 简 单 地 说 ， 这 是 因为 
RDBMS 更 易于 在 单机 上 运行 ， 你 也 更 熟悉 。 

但 是 ， 如 果 你 认为 需要 至 少 几 个 节点 才能 支撑 你 的 业务 ， 那 


Cassandra 就 是 个 不 错 的 选择 。 如 果 你 的 应 用 可 能 需要 数 十 个 节 
点 ， 那 Cassandra 可 能 就 是 个 很 棒 的 选择 了 。 


15.2 ” 写 密 集 、 统 计 和 分 析 型 工作 


考虑 一 下 你 的 应 用 的 读 写 比例 ，Cassandra 是 为 优异 的 写 吞 叶 量 
而 特别 优化 的 。 



































许多 早期 使 用 Cassandra 的 产品 都 用 于 存储 用 户 状态 更 新 、 社 交 
网 络 、 建 议 /评价 以 及 应 用 统计 等 。 这 些 都 是 Cassandra 很 好 的 
应 用 场景 ， 因 为 这 些 应 用 大 都 是 写 多 于 读 的 ， 并 且 更 新 可 能 随 
时 发 生 并 伴 有 突 发 的 峰值 。 事 实 上 ， 文 撑 应 用 负载 需要 很 高 的 
多 客户 线程 并 发 写 性 能 ， 这 正 是 Cassandra 的 主要 特性 。 


根据 项 目的 wiki，Cassandra 已 经 被 用 于 开发 了 多 种 不 同 的 应 
用 ， 包 括 一 个 窗口 化 的 时 间 序 列 数据 库 ， 一 个 用 于 文档 搜索 的 
反 加 索引， 以 及 一 个 分 布 式 任务 优先 级 队列 。 


1.5.8 ”地 区 分 布 


Cassandra 直 接 文 持 多 地 分 布 的 数据 存储 。Cassandra 可 以 很 容 
易 配置 成 将 数据 分 布 到 多 个 数据 中 心 的 存储 方式 。 如 果 你 有 一 
个 全 球 部 署 的 应 用 ， 那 么 让 数据 贴近 用 户 会 获得 不 错 的 性 能 收 
益 ，Cassandra 正 适合 这 种 应 用 场合 。 


1.5.4 变化 的 应 用 
如 果 你 正在 “初创 阶段 >， 业 务 会 不 断 改进 ，Cassandra 这 种 没有 


Schema 的 数据 模型 可 能 更 适合 你 。 这 让 你 的 数据 库 能 更 好 地 
跟 上 业务 改进 的 步伐 。 

















1.6 £1% H Cassandra 


不 管 怎 么 说 ，Cassandra 还 是 处 在 初级 阶段 ， 在 本 书写 作 的 时 候 
也 还 没有 达到 1.0 发 布 的 水 平 。 没 有 什么 易 用 的 图 形 化 的 管理 

工具 可 用 ， 社 区 之 中 ， 也 还 有 一 些 内 部 和 外 部 的 有 和 争议 的 设计 
问题 。 但 是 即使 是 在 开发 的 早期 ， 它 作为 一 种 有 发 展 前 景 、 可 
ie EE 己 经 被 很 多 知名 的 大 公司 用 到 了 
产品 之 中 。 

















名 实际 上 ， 有 一 种 被 称 为 “从众 廖 误 ” 的 逻辑 廖 误 ， 即 那 
些 很 流行 、 很 大 众 化 的 东西 束 被 认为 是 对 的 。Cassandra 坚 无 
疑问 有 一 个 火箭 式 的 上 升 期 ， 特 别 是 在 过 去 一 年 里 。 不 过 ， 
我 仍然 认为 这 些 在 不 同 公司 的 不 同 产品 中 的 应 用 至 少 可 以 证 
明 Cassandra 是 有 用 的 ， 而 且 已 经 随时 可 用 。 


正在 使 用 Cassandra 的 公司 还 在 增长 中 ， 这 些 公司 如 下 。 


Twitter 正在 使 用 Cassandra 做 数据 分 析 。 在 一 篇 广 为 引 用 的 
博客 里 Chttp://engineering.twitter.com/2010/07/cassandra-at- 
twitter-today.html ) ，Twitter 的 主要 Cassandra 工 程 师 Ryan 
King 解 释 道 ，Twitter 决 定 不 会 像 开 始 计划 的 那样 使 用 
Cassandra 作 为 其 主要 的 tweets 存 储 系统 ， 但 还 会 将 
Cassandra 用 于 多 个 不 同 的 地 方 ， 包 括 : 实时 分 析 ， 地 理 和 
位 置信 息 ， 以 及 全 部 用 户 信 息 的 数据 挖 气 。 


Mahalo 使 用 Cassandra 作 为 其 主要 的 近 实 时 数据 存储 。 


Facebook 还 在 使 用 Cassandra 作 为 其 收 件 箱 的 索引 ， 不 过 使 
用 的 是 一 个 非 开 源 分 支 。! 























译注 1: 




















民 据 Facebook 的 工程 归 











团队 在 2010 年 11 月 对 他 们 发 布 的 新 消息 系统 的 介绍 ， 新 消 

















息 系 统 是 基于 HBase 而 非 Cassandra 的 。 


Rackspace 使 用 它 进 


Digg 也 使 用 Cassandra 作 为 主要 的 近 实 时 数据 存储 。 
行 云 服务 、 监 控 和 日 志 存 储 。 

Reddit 使 用 它 作 为 持久 化 的 缓存 。 

Cloudkick 使 用 Cassandra 用 于 监控 统计 和 分 析 。 

Ooyala 使 用 Cassandra 存 储 和 服务 近 实 时 的 视频 分 析 数 据 。 
0 








Onespot 使 用 它 作 为 部 分 主要 数据 的 存储 系统 。 


Cisco 和 Platform64 也 在 使 用 Cassandra， 而 且 Comcast 和 bee.tv 也 
准备 使 用 Cassandra 来 为 移动 设备 提供 网 上 的 个 性 化 电视 服务 。 








其 实 还 有 更 多 。 最 后 要 说 的 是 ， 这 些 应 用 都 是 真实 存在 的 ， 各 
种 不 同 领域 的 公司 都 找到 了 Cassandra 的 应 用 场合 并 获得 成 功 。 
在 本 书写 作 的 时 候 ， 最 大 的 Cassandra 应 用 来 自 于 Facebook， 他 
们 在 100 多 台 机 器 上 存储 了 超过 50 TB 的 数据 。 


很 多 公司 都 在 不 同 的 产品 项 目 里 评估 Cassandra， 而 由 Apache 
Cassandra 项 目的 主席 Jonathan Ellis 等 人 成 立 的 公司 Riptano 也 于 
2010 年 4 月 成 立 了 。 随 着 更 多 的 特性 、 更 好 的 工具 以 及 技术 文 
持 方案 的 加 入 ， 可 以 预期 会 有 更 多 的 人 加 入 使 用 Cassandra 的 行 


列 。 














1.7 42 


本 章 我 们 介绍 了 Cassandra 的 特征 、 历 史 和 主要 特性 。 我 们 了 解 
到 了 哪些 公司 使 用 了 Cassandra 和 它们 的 使 用 目的 。 我 们 还 回顾 
了 数据 库 技 术 的 发 展 史 ， 以 此 可 以 从 历史 角度 看 符 Cassandra 的 
价值 。 





第 2 草 wJ% Cassandra 





对 于 立即 想 要 尝鲜 的 读者 ， 我 们 将 从 安装 Cassandra 开 始 。 因 为 
Cassandra 带 来 了 很 多 新 词汇 ， 安 装 过 程 中 可 能 会 有 些 我 们 不 太 
熟悉 的 词 。 不 过 不 用 担心 ， 本 章 的 目的 是 快速 搭建 一 个 简单 可 
用 的 系统 。 先 措 起 一 个 环境 。 之 后 我 们 再 在 这 个 基础 上 从 更 大 
的 背景 下 理解 Cassandra。 











2.1 安装 二 进 制 包 


Cassandran] 以 从 其 官方 网 站 http://cassandra.apache.org 上 下 

载 。 只 要 单 击 首 页 上 的 下 载 最 新 版 本 的 链接 束 可 以 下 到 gzip 压 
缩 的 tar 包 。 编 译 好 的 二 进 制 包 命 名 为 apache-cassandra-X.X.X- 
bin.tar.gz， 其 中 X.X.X 是 版 本 号 。 压 纵 包 大 约 10 MB 大 。 





2.1.1 解压 缩 








最 简单 的 开始 方法 就 是 下 载 已 经 编译 好 的 二 进 制 包 。 你 可 以 使 
用 任何 常规 的 ZIP 工 具 来 解 开 压 缩 包 。 在 Linux 下 ，gzip 应 该 是 
所 有 发 布 版 预 装 的 工具 ， 而 在 Windows 下， 你 可 能 需要 一 个 
WinZip 之 类 的 工具 。WinZip 是 商业 软件 ， 如 果 需 要 免费 软件 
的 话 ， 可 以 使 用 7-Zip， 这 个 工具 可 以 从 http://www.7-zip .org 
下 载 。 

使 用 解压 工具 。 你 可 能 需要 分 两 步 来 打开 压缩 文件 和 tar 包 ， 一 


旦 得 到 了 一 个 名 为 apache-cassandra-x.x.x 的 目录 ， 你 就 可 以 运 
行 Cassandra 了 。 


2.1.2 里 面 有 什么 


解 开 tar 包 之 后 ， 你 就 可 以 看 到 Cassandra 的 二 进 制 发 布 里 面 的 
各 个 目录 了 。 现 在 让 我 们 先 来 花 点 时 间 看 看 里 面 都 有 些 什 么 。 

















e bin 

bin 目录 包含 了 用 于 运行 Cassandra 的 可 执行 文件 以 及 命令 行 
(CLI) 客户 端 。 这 个 目录 中 还 包含 运行 nodetool 的 脚本 ， 

用 于 监控 集群 是 否 被 合理 配置 ， 并 进行 各 种 管理 操作 。 在 后 面 

















我 们 会 深入 介绍 nodetool 。 这 个 目录 还 包含 Cassandra 的 数据 
文件 SSTable 与 JSON 相 互 转换 的 脚本 。 


e conf 


这 个 目录 在 源码 包 里 也 位 于 这 个 位 置 ， 包含 了 配置 Cassandra 实 
例 所 需 的 配置 文件 ， 这 些 配置 文件 有 三 个 主要 功能 : 通过 
storage-conf.xml 文 件 ， 你 可 以 配置 keyspace 和 列 族 ， 以 此 创建 
存储 系统 ， 还 有 一 些 文 件 用 于 鉴 权 相关 设置 ， 最 后 
log4j.properties 文 件 是 用 来 配置 日 志 级 别 等 设置 的 。 在 第 6 章 
里 ， 我 们 在 介绍 如 何 配置 Cassandra 时 会 看 到 如 何 使 用 它们 。 

















e interface 


对 于 0.6 和 之 前 版 本 的 Cassandra， 这 个 目录 里 只 有 一 个 文件 
cassandra.thrift。 这 个 文件 用 于 描述 Cassandra 支 持 的 远程 
WH (RPC) 客户 端 API。 接 口 使 用 Thrift 格 式 定义 ， 并 提供 了 
一 个 简单 的 生成 客户 端的 方法 。 要 快速 查看 Cassandra 所 支持 的 
所 有 操作 ， 只 要 使 用 一 个 普通 文本 编辑 器 打开 这 个 文件 就 行 

了 。 你 可 以 看 到 Cassandra 通 过 这 个 接口 支持 Java、C++、 
PHP、Ruby、Python、Perl 以 及 C# 等 各 种 客户 端 。 





e javadoc 


这 个 目录 包含 了 Java 的 JavaDoc 工 具 自 动 生 成 的 文档 站 点 。 注 
意 ，JavaDoc 仪 仪 是 从 Java 源 码 里 的 注释 直接 生成 的 ， 并 不 是 
一 个 非常 完善 的 文档 。 如 果 你 只 希望 了 解 代码 的 结构 ， 这 可 能 
还 算是 个 不 错 的 途径 。 而 且 ， 虽 然 Cassandra 是 个 非常 优秀 的 项 
目 ， 但 代码 之 中 的 注释 却 并 不 多 ， 所 以 ， 你 可 能 会 发 现 
JavaDoc 的 帮助 非常 有 限 。 如 果 你 对 Java 比 较 就 悉 ， 直 接 阅 读 
class 文 件 可 能 更 有 效 一 些 。 如 果 还 是 要 阅读 JavaDoc， 那 么 就 
用 浏览 器 打开 javadoc/index.html 文 件 即 可 。 




















e lib 


这 个 目录 包含 Cassandra 运 行 所 需 的 外 部 库 。 比 如 ， 这 里 面包 含 
了 两 个 不 同 的 JSON 串 行 化 库 ，Google collections 项 目 ， 以 及 一 
些 Apache 的 公共 库 。 这 个 目录 还 包含 Thrift 和 Avro RPC 库 ， 用 
于 与 Cassandra 的 交互 。 


2.2. MAIRI VE 


Cassandraf£ H] Apache Ant 作 为 编译 脚本 语言 ， 并 使 用 Ivy 插 件 
来 进行 依赖 关系 管理 。 





Sde 你 可 以 从 http:Wantapache.org 下 载 Ant， 只 是 要 编译 
Cassandra 的 话 ， 不 需要 单独 下 载 Ivy。 


Ivy 依 赖 于 Ant， 并 且 编 译 源 码 还 需要 1.6.0 .20 以 上 版 本 的 
JDK， 而 不 仅 是 JRE。 如 果 你 看 到 Ant 人 缺少 tools.jar 的 话 ， 要 人 么 
是 缺少 完整 的 JDK， 要 么 是 环境 变量 指向 了 错误 的 路 径 。 














SE 如 果 你 想 下 载 最 新 的 系统 ， 那 么 可 以 从 Hudson 中 获取 
代码 ，Hudson 是 Cassandra 使 用 的 持续 集成 工具 。 最 新 的 源 代 
码 和 集成 测试 信息 位 于 
http://hudson.zones.apache.org/hudson/job/Cassandra/ 。 


如 果 你 是 Git 的 忠实 用 户 ， 还 可 以 使 用 以 下 命令 来 下 载 
Cassandra 源 码 的 主干 分 支 ( 只 读 ) : 


>git clone git://git.apache.org/cassandra.git 














`d Gité Linus Torvalds 开 发 的 用 于 管理 Linux 内 核 开发 的 源 

代码 管理 系统 。 这 个 工具 目前 非常 流行 ， 被 Android、 

Fedora, Ruby on Rails、Perl 等 项 目 以 及 很 多 Cassandra 客 户 端 
(第 8 章 会 进一步 介绍 ) 项 目 使 用 。 如 果 你 使 用 了 诸如 

Ubuntu 这 样 的 Linux 发 布 版 ， 非 党 容易 获得 Git。 只 要 在 终端 











输入 >apt-get install git 束 可 以 装 好 并 开始 使 用 了 。 如 果 要 进 
一 步 了 解 ， 可 以 访问 http://git-scm.com/ 。 


因为 Ivy 可 以 处 理 好 所 有 依赖 关系 ， 一 旦 你 获取 了 源 代码 ， 编 
译 Cassandra 就 是 一 件 非常 容易 的 事 。 只 要 确定 你 在 源 代码 的 根 
目录 ， 并 执行 ant 命令 就 行 ，ant 会 根据 当前 路 径 中 的 
build.xml 文 件 的 内 容 执行 默认 的 编译 目标 。 后 面 的 事情 就 全 由 
Ant 和 TIvVy 负 责 了 。 和 要 运行 Ant 开 始 编译 源码 ， 只 要 输入 如 下 命 
令 即 可 : 


就 这 么 简单 ，Ivy 会 获取 所 有 必要 的 依赖 库 ，Ant 会 编译 大 约 
350 个 源 文件 ， 并 执行 测试 。 如 果 一 切 正 常 ， 你 可 以 看 到 一 
条 BUILD SUCCESSFUL 消息 。 如 果 出 现 意外 的 话 ， 首 先 检 查 你 
的 各 种 路 径 设 置 是 否 正 确 ， 是 否 有 所 有 需要 的 工具 的 最 新 版 
本 ， 以 及 是 否 下 载 了 一 个 稳定 版 本 的 Cassandra。 你 可 以 通过 
Hudson 的 集成 测试 报告 来 查看 下 载 的 源 代码 是 否 可 以 正常 编 


Es 


















































* f: 如 果 你 希望 看 到 编译 过 程 中 的 详细 信息 ， 可 以 在 运行 
Ant 的 时 候 加 上 -v 选项 ， 这 样 它 会 输出 每 一 个 操作 的 详细 信 
S, 





2.2.1 其 他 编译 目标 


要 编译 服务 右 ， 只 要 运行 上 面 的 命令 就 可 以 了 。 而 这 里 其 实 还 
有 一 些 其 他 的 编译 目的 ， 你 或 许 也 感 兴趣 。 











e test 














对 用 户 来 说 ， 这 可 能 是 个 最 有 用 的 目的 ， 它 会 自动 执行 所 有 单 
元 测试 。 你 还 可 以 从 单元 测试 里 面 发 现 不 少 关 于 如 何 和 
Cassandra 交 互 的 有 用 的 例子 。 





e gen-thrift-java 


这 个 目的 用 于 生成 使 用 Java 和 Cassandra 交 互 的 Apache Thrift% 
Fe He 





e gen-thrift-py 
这 个 目的 用 于 生成 Python 用 户 使 用 的 Thrift 客 户 端 接口 。 








e build-jar 
用 于 生成 用 来 发 布 的 Java 存 档 (JAR) 文件 ， 可 以 直接 执行 
>ant jar。 这 样 就 可 以 完成 编译 过 程 ， 并 在 build 目 录 生 成 一 个 
名 为 apache-cassandra-x.x.x.jar 的 文件 。 








2.2.2 ”使 用 Maven 编 译 


Cassandra 的 最 早 的 作者 们 似乎 并 不 怎么 关注 Maven， 所 以 早期 
的 Cassandra 版 本 里 也 没有 包含 Maven POM 文 件 。 不 过 ， 由 于 
越 来 越 多 的 Java 开 发 者 开始 从 Ant 转 加 Maven， 而 且 Maven 的 
IDE 工 具 支 持 也 日 渐 强 大 ， 如 果 你 非常 想 用 Maven 的 话 ， 可 以 
用 一 个 外 部 贡献 的 pom.xml 文 件 。 


要 使 用 Maven 编 译 源 人 代码， 需要 在 &ltcassandra- 


home>/contrib/maven 目 录 执 行 这 条 命令 : 


$ mvn clean install 


如 果 你 使 用 Maven 编 译 过 到 困难 的 话 ， 可 能 需要 手工 下 载 一 些 


需要 的 JAR 包 。 对 于 0.6.3 版 本 来 襄 ， 因 为 一 些 依赖 关系 ， 
Maven POM 文 件 是 无 法 直接 使 用 的 ， 比 如 libthrift.jar 在 Maven 
仓库 中 就 不 可 用 。 





* 4: 因为 Cassandra 的 开发 者 很 少 使 用 Maven， 所 以 Maven 也 
缺少 强 有 力 的 支持 。 也 就 是 说 ， 你 得 小 心 使 用 Maven， 因 为 
Maven POM 经 第 是 不 可 用 的 。 





2.3 ”运行 Cassandra 


在 Cassandra 的 早期 版 本 中 ， 运 行 Cassandra 服 务 器 之 前 需要 调 
整 使 用 Ivy 来 设置 环境 变量 。 但 现在 开发 者 们 已 经 做 了 一 些 非 
常 出 色 的 工作 ， 使 得 我 们 可 以 很 容易 地 直接 启动 Cassandra。 

















"1* Cassandra 需 要 J2SE JDK6， 最 好 是 1.6.0_20 或 是 更 新 的 
版 本 。Cassandra 己 经 在 Open JDK 和 Sun JDK 上 进行 了 测试 。 
你 可 以 使 用 >java-version 这 条 命令 来 检查 Java 的 版 本 。 如 
果 需 要 JDK 的 话 ， 可 以 从 http://java.sun.com/javase/downloads 
下 载 。 


2.3.1 在 Windows 平 台 上 运行 Cassandra 








只 要 下 载 了 二 进 制 包 或 是 下 载 了 源码 包 编译 之 后 ， 就 可 以 运行 
Cassandra 服 务 器 了 。 


首先 ， 需 要 设置 JAVA_HOME 环境 变量 。 要 在 Windows 7 上 设置 
环境 变量 ， 需 要 单 击 *“ 开 始 ” 按 钮 ， 然 后 在 “我 的 电脑 ”上 点 右 
键 。 选 择 “ 高 级 系统 设置 ?， 然 后 单 击 “ 环 境 变量 .……” 按 钮 。 单 
击 “ 新 建 .……” 按 钮 ， 创 建 一 个 新 的 系统 变量 。 在 变量 的 名 称 域 
输入 JAVA_HOME 。 在 变量 的 值 域 输入 JDK 的 安装 位 置 。 可 能 是 
类 似 C: Program FilesJavajdk1.6.0 .20 的 东西 。 这 里 ， 你 是 在 
创建 一 个 新 的 环境 变量 ， 所 以 需要 重新 打开 一 个 终端 窗口 才能 
让 新 设置 的 环境 变量 生效 。 要 确定 环境 变量 是 否 设置 妥当 了 ， 
在 新 的 终端 窗口 输入 >echo %JAVA HOME% 。 输 出 的 值 就 是 你 
设置 的 环境 变量 。 


第 一 次 启动 服务 器 时 ，Cassandra 会 在 系统 中 添加 两 个 目录 。 第 























一 个 是 Ci\vanlib\cassandra， 这 个 目录 用 于 存放 一 些 称 
commitlog 的 数据 文件 。 男 一 个 是 Ci:\van\log\cassandra， 在 这 个 
目录 里 ， 日 志 会 写 到 名 为 system.log 的 文件 中 去 。 如 果 你 遇 到 
什么 问题 ， 可 以 查看 这 些 目录 中 的 内 容 ， 来 看 看 到 旗 发 生 了 什 
么 。 如 果 你 在 尝试 多 个 不 同 版 本 的 Cassandra， 并 且 不 担心 丢 挥 
< 可 以 直接 删除 这 些 目 录 再 像 上 次 局 动 系统 一 样 重 新 
A YJ ZR Zio 








2.3.2 ”在 Linux 下 运行 Cassandra 


在 Linux 下 运行 Cassandra 和 在 Windows 下 区 别 不 大 。 首 先 确定 
JAVA HOME 环境 变量 设置 到 1.6.0_20 或 是 更 新 版 本 的 JDK 上。 
然后 用 gunzip 打 开 gzip 压 缩 的 Cassandra 的 tar 包 。 最 后 ， 创 建 两 
个 目录 用 于 存放 Cassandra 的 数据 和 日 志 ， 并 设置 恰当 的 权限 ， 
如 下 所 示 : 

ehewitt@morpheus$ cd /home/eben/books/cassandra/dist/apache-cassi 


0.7.0-beta1 
ehewittàmorpheus$ sudo mkdir -p /var/log/cassandra 











ehewittQmorpheus$ sudo chown -R ehewitt /var/log/cassandra 
ehewittàmorpheus$ sudo mkdir -p /var/lib/cassandra 
ehewittQmorpheus$ sudo chown -R ehewitt /var/lib/Cassandra 





当然 ， 对 于 你 来 说 不 是 ehewitt ， 应 该 蔡 换 成 你 自己 的 用 户 
名 。 


2.3.3 ”启动 服务 器 


不 论 在 任何 操作 系统 中 ， 启 动 Cassandra 服 务 器 都 要 在 终端 窗口 
里 ， 进 入 到 解压 压缩 文件 得 到 的 &ltcassandra-directory>/bin 目 
录 中 去 ， 运 行 下 面 的 命令 来 启动 服务 器 。 对 于 第 一 次 安装 的 系 
统 ， 你 应 该 看 到 差不多 如 下 的 日 志 内 容 : 














ebenQmorpheus$ bin/cassandra -f 


INFO 13:23:22,367 DiskAccessMode 'auto' determined to be standi 
indexAccessMode is standard 

INFO 13:23:22,475 Couldn't detect any schema definitions in loq 

INFO 13:23:22,476 Found table data in data directories. 

Consider using JMX to call org.apache.cassandra.service.StorageS( 
. loadSchemaFromYaml ( ) . 

INFO 13:23:22,497 Cassandra version: 0.7.0-betai1 

INFO 13:23:22,497 Thrift API version: 10.0.0 

INFO 13:23:22,498 Saved Token not found. Using qFABQw5XJMvs4714 

INFO 13:23:22,498 Saved ClusterName not found. Using Test Clus 

INFO 13:23:22,502 Creating new commitlog segment /var/lib/cassi 

INFO 13:23:22,507 switching in a fresh Memtable for LocationIn 
at CommitLogContext( file-z'/var/lib/cassandra/commitlog/C 
1282508602502.10g', position-276) 

INFO 13:23:22,510 Enqueuing flush of Memtable-LocationInfo(Q298! 
bytes, 4 operations) 

INFO 13:23:22,511 Writing Memtable-LocationInfo29857804(178 b 
operations) 

INFO 13:23:22,691 Completed flushing /var/lib/cassandra/data/s 
LocationInfo-e-1-Data.db 

INFO 13:23:22,701 Starting up server gossip 

INFO 13:23:22,750 Binding thrift service to localhost/127.0.0. 

INFO 13:23:22,752 Using TFramedTransport with a max frame size 
15728640 bytes. 

INFO 13:23:22,753 Listening for thrift clients... 

INFO 13:23:22,792 mx4j successfuly loaded 

HttpAdaptor version 3.0.2 started on port 8081 





aa 


p -和 人 参数 告诉 Cassandra 停 留 在 前 台 ， 而 不 是 作为 一 个 后 
台 进 程 运 行 ， XX FE A i 的 日 志 就 会 输出 到 标准 输出 来 ， 我 
们 也 就 可 以 在 终端 窗口 看 到 这 些 信 息 了 ， 这 对 于 测试 来 说 非 
党 有用。 


祝贺 你 ! 你 的 Cassandra 服 务 器 应 该 已 经 运行 起 来 了 ， 并 且 得 到 
了 一 个 监听 9160 端 口 的 ， 名 为 Test Cluster 的 单 节 点 Cassandra 集 











BET. 





* 1* Cassandra 开 发 者 们 在 努力 工作 ， 以 保障 Cassandra 每 一 

个 小 版 本 升级 和 每 一 个 主 版 本 升级 后 都 可 以 继续 读 取 原 有 的 
数据 。 但 是 ， 在 版 本 升级 时 《即使 是 小 版 本 的 升级 ) ， 你 仍 
需要 确保 已 经 完全 提交 并 清空 所 有 commit log. 


如 果 你 有 较 早 Bees 那么 可 能 需要 现在 就 清空 这 
些 数 据 目 录 ， 这 只 要 启动 并 运行 那个 已 有 的 系统 就 可 以 了 。 
如 果 你 已 经 删 除 了 旧 的 Cassandra， 并 和 希望 重新 从 零 开 始 ， 那 
么 可 以 删除 /var/lib/cassandra 和 和 /var/log/cassandra 两 个 目录 。 








2.4 ”使 用 命令 行 界 面 的 客户 六 

现在 ， 你 已 经 拥有 了 一 个 运行 着 的 Cassandra 集 群 了 ， 我 们 来 操 
作 一 下 ， 确 认 一 切 正常 吧 。 在 Linux 下 ， 只 要 用 命令 行 就 可 以 
了 。 而 在 Windows 下 ， 你 可 能 还 要 多 做 一 点 工作 。 


在 Windows 下 ， 访 问 Cassandra 的 安装 目录 ， 并 在 这 里 打开 一 个 
终端 ， 运 行 客 户 端 程 序 : 


»binNcassandra-cli 


对 于 Windows， 局 动 客 户 端 时 ， 你 可 能 会 看 到 这 样 的 出 错 信 
息 : 





Starting Cassandra Client 
Exception in thread "main" java.lang.NoClassDefFoundError: 





org/apache/cassandra/cli/CliMain 





这 可 能 因为 是 在 bin 目 录 里 直接 启动 的 Cassandra， 这 样 ， 它 的 
Java classpath 设 置 并 不 正确 ， 无 法 找到 CliMain 文 件 来 启动 客户 
端 。 你 需要 首先 定义 一 个 CASSANDRA_HOME 环境 变量 ， 指 向 
Cassandra 所 在 的 顶级 目录 ， 也 束 是 放置 或 是 编译 Cassandra 的 
目录 ， 这 样 就 不 必 关 注 到 底 是 从 哪里 局 动 的 Cassandra 了 。 





























SE 对 于 如 何在 Windows 里 设置 环境 变量 ， 可 以 参考 2.3.1 
"Ds 


要 在 Linux 下 运行 命令 行 客户 端 ， 只 要 到 Cassandra 的 安装 目 
录 ， 并 运行 bn 目录 里 的 cassandra-cli MS: 


»bin/cassandra-cli 











Cassandral] € F Y 3 x JT 48 LNE: 


ebenQmorpheus$ bin/cassandra-cli 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaultQunknown] 








现在 ， 你 就 拥有 了 一 个 交互 式 的 shell， 可 以 发 出 命令 了 。 


不 过 ， 还 需要 注意 的 一 点 是 ， 如 果 你 习惯 于 Oracle 的 SQL*Plus 
或 类 似 的 数据 库 命 令 行 客 户 端的 话 ， 可 能 会 有 些 失 望 。 
Cassandra 的 命令 行 客 户 端 并 不 是 一 个 全 功能 的 客户 端 ， 它 确实 
只 是 开发 用 的 。 对 于 开始 使 用 Cassandra 来 说 ， 这 也 是 个 不 错 的 
途径 。 因 为 通过 这 个 客户 端 你 不 需要 写 很 多 代码 就 可 以 检测 环 
境 是 否 可 用 ， 以 及 你 与 Cassandra 的 交互 是 否 正 常 。 














2.5 ”基本 命令 行 命令 


在 开始 深入 研究 Cassandra 之 前 ， 我 们 来 笼统 看 一 下 客户 端的 
API， 了 解 你 能 给 服务 器 送 什 么 样 的 命令 。 我 们 将 看 到 如 何 使 
用 基本 环境 命令 ， 以 及 如 何 交 互 来 插入 或 读 取 数据 。 














2.5.1 帮助 


要 在 命令 行 界面 下 获得 帮助 信息 ， 只 要 敲 “?” 或 “help” 就 能 够 看 
到 可 用 命令 的 列表 ， 如 下 列 出 的 只 是 和 元 数据 与 配置 相关 的 命 
令 ， 关 于 查看 与 设置 值 的 其 他 命令 我 们 将 在 后 面 介 绍 。 


[defaultQKeyspacei1] help 

List of all CLI commands: 

pi 

help 

help &ltcommand> 

connect &lthostname>/&ltport> 

use &ltkeyspace> [&ltusername> 'password'] 
describe keyspace &ltkeyspacename> 
exit 

quit 

show cluster name 

show keyspaces 

















show api version Show 

create keyspace &ltkeyspace> [with &ltatt1>=&ltvalue1> [a 
Add a new keyspace with the specif 
value(s). 

create column family &ltcf> [with &ltatti»-&ltvaluei» [and &ltat 
Create a new column family with thi 
attribute and value(s). 


drop keyspace &ltkeyspace» 

drop column family &ltcf» 

rename keyspace &ltkeyspace» &ltkeyspace new name» 
rename column family &ltcf» &ltnew name» 





2.5.2 ”连接 服务 器 


这 样 启动 客户 端 并 不 能 2 oe 
所 以 ， 要 想 连 接 到 某 个 服务 器 还 需要 使 用 connect 命 








ebenQmorpheus: -/books/cassandra/dist/apache-cassandra-0.7.0-beta 
cassandra-cli 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaultQunknown] connect localhost/9160 

Connected to: "Test Cluster" on localhost/9160 
[defaultQunknown] 








teu] DL ECBETEJH SIZE mi, SIX 0E UB RE 32D LIU DT 
指定 连接 到 哪个 Cassandra 服 务 器 实例 : 
ebenQmorpheus: -/books/cassandra/dist/apache-cassandra-0.7.0-beta 


cassandra-cli localhost/9160 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaultQunknown] 





S} 如 果 在 连接 服务 器 的 时 候 遇 到 类 似 这 样 的 出 错 信息 : 


Exception connecting to localhost/9160 - java.net.Connect- 


Exception: Connection refused: connect 











请 确定 Cassandra 服 务 器 实例 是 个 在 这 个 主机 和 端口 上 ， 并 且 
尝试 一 下 是 否 可 以 ping 通 这 个 主机 。 防 火 墙 也 可 能 会 阻止 连 
接 到 服务 器 上 。 同 时 请 检查 是 不 是 正在 使 用 上 面 新 的 0.7 的 语 
法 ， 这 个 语法 与 老 版 本 有 所 不 同 。 


上 面 的 命令 行 显示 ， 你 连接 到 了 一 个 称 为 “Test Cluster” 的 























Cassandra 服 务 嚣 集群 。 这 是 因为 localhost 上 的 单 节 点 集群 
默认 就 是 这 样 设置 的 。 





“全 在 一 个 生产 环境 里 ， 请 确定 在 配置 文件 里 去 掉 Test 
Cluster 的 字样 。 


2.5.3 ”描述 环境 


在 连接 到 Test Cluster 这 个 Cassandra 服 务 器 实例 之 后 ， 如 果 你 使 
用 的 是 二 进 制 发 布 版 ， 那 么 应 该 已 经 设置 好 了 一 个 空 的 
keyspace， 或 者 叫 Cassandra 数 据 库 ， 来 供 你 试用 了 。 





要 看 当前 正在 操作 的 集群 的 名 字 ， 输 入 : 


[defaultQunknown] show cluster name 





Test Cluster 





要 看 集群 中 有 哪些 keyspace 可 用 ， 使 用 如 下 命令 : 


[defaultQunknown] show keyspaces 





如 果 你 已 经 创建 了 自己 的 keyspace， 它 们 也 会 出 现在 这 
!'B. system keyspace7c Cassandra £& 统 内 部 使 用 的 ， 我 们 不 能 





在 里 面 存放 数据 。 这 样 看 的 话 ， E 它 的 作用 类 似 于 微软 的 SQL 
Server 里 的 master 和 temp 数 据 库 。 这 个 keyspace 里 存放 的 内 容 包 
括 schema 的 定义 和 运行 时 对 schema 进 行 的 所 有 修改 。 利 用 这 个 
keyspace， 对 schema 的 任何 修改 都 可 以 基于 时 间 惟 的 先后 顺序 





传 届 整个 集群 。 
要 查看 系统 使 用 的 API 版 本 ， 只 要 输入 : 


[defaultQKeyspacei] show api version 








这 里 有 很 多 其 他 的 命令 可 以 尝试 。 现 在 ， 我 们 首先 在 数据 库 里 
添加 一 些 数据 ， 再 把 它们 取出 来 。 





2.5.4 创建 keyspace 和 列 族 


Cassandra keyspace 大 致 相当 于 关系 数据 库 里 的 一 个 数据 库 。 它 

会 定义 一 个 或 多 个 列 族 ， 列 族 大致 可 以 对 应 于 关系 数据 库 中 的 

e 当 我 们 不 指定 keyspace 来 启动 命令 行 客户 端 时 ， 输 出 大 致 
Hh: 


»bin/cassandra-cli --host localhost --port 9160 
Starting Cassandra Client 
Connected to: "Test Cluster" on localhost/9160 
Welcome to cassandra CLI. 








Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaultQunknown] 











shell 提 示 符 显示 为 default@unknown ， 因 为 我 们 没有 作为 某 
一 个 用 户 通 过 鉴 权 《上 鉴 权 的 内 容 会 在 第 6 章 介 绍 ) ， 而 且 也 没 
指定 keyspace。 





S f: 这 里 鉴 权 的 方式 和 MySQL 很 类 似 ， 如 果 用 过 MySQL 应 
该 不 会 感到 陌生 。 鉴 权 与 授权 的 功能 实际 在 本 书写 作 时 还 在 





开发 中 。 我 们 建议 把 Cassandra 集 群 放 在 防火 墙 内 ， 以 确保 安 


o 


我 们 首先 创建 自己 的 keyspace， 这 样 就 能 在 里 面 写 入 数据 了 : 


[defaultQunknown] create keyspace MyKeyspace with replication faq 
ab67bad0-ae2c-11df-b642-e700f669bcfc 


暂时 不 要 管 replication factor, ， 后 面 我 们 会 详细 探讨 这 
个 设置 的 。 在 创建 了 自己 的 keyspace 之 后 ， 你 可 以 通过 如 下 命 
令 来 进入 这 个 keyspace: 





[defaultQunknown] use MyKeyspace 
Authenticated to keyspace: MyKeyspace 
[defaultQMyKeyspace] 


因为 MyKeyspace 并 不 要 求 认证 ， 所 以 我 们 被 授权 访问 这 个 
keyspace 了。 
现在 可 以 在 这 个 keyspace 里 面 创建 列 族 了 。 要 通过 命令 行 创建 
列 族 ， 可 以 使 用 如 下 命令 : 

[defaultQMyKeyspace] create column family User 


991590d3-ae2e-11df-b642-e700f669bcfc 
[defaultQMyKeyspace] 





这 样 就 在 当前 keyspace 创 建 了 一 个 使 用 默认 列 族 设 置 的 名 
为 “User” 的 列 族 。 我 们 可 以 使 用 命令 行 客户 端的 describe 
keyspace 命 令 来 查看 keyspace 的 描述 信息 和 列 族 的 定义 ， 如 
P: 





[default@MyKeyspace] describe keyspace MyKeyspace 
Keyspace: MyKeyspace 


Column Family Name: User 
Column Family Type: Standard 
Column Sorted By: org.apache.cassandra.db.marshal.BytesType 


flush period: null minutes 


[defaultQMyKeyspace] 


我 们 后 面 会 来 关注 Type 、Sorted By 以 及 flush period iX 
置 。 则 开始 ， 现 在 这 些 已 经 足够 了 。 


2.5.5 (Ej A 


现在 ， 我 们 已 经 有 了 keyspace 和 列 族 ， 将 向 数据 库 里 面 写 入 一 
些 数据 再 读 取出 来 。 虽 然 现 在 还 不 太 明 白 它 是 如 何 工 作 的 ， 不 
过 这 问题 不 大 。 我 们 将 在 后 面 的 章节 来 逐步 熟悉 Cassandra 的 数 
据 模 型 。 现 在 ， 你 已 经 拥有 了 一 个 keyspace (数据 库 ) ， 其 中 
有 一 个 列 族 。 对 于 我 们 的 简单 目的 来 说 ， 直 接 把 列 族 看 做 是 一 
个 多 维 有 序 映 射 就 可 以 ， 无 需 提 前 进行 更 多 设置 。 列 族 里 包含 
列 ， 而 列 是 原子 级 的 数据 存储 单元 。 


要 写 入 值 ， 可 以 使 用 set 命令 : 














[defaultQMyKeyspace] set User['ehewitt']['fname']-z'Eben' 
Value inserted. 
[defaultQüMyKeyspace] set User['ehewitt']['email']-'meQexample.co 


Value inserted. 
[defaultQMyKeyspace] 








这 里 为 键 值 ehewitt 创建 了 两 个 列 ， 分 别 写 入 了 相应 的 值 。 列 
的 名 字 是 fname 和 email 。 我 们 可 以 使 用 count 命令 来 确认 已 
经 为 这 个 键 值 写 入 两 个 列 了 : 


[defaultQMyKeyspace] count User['ehewitt'] 
2 columns 


现在 数据 已 经 在 Cassandra 里 了 ， 让 我 们 来 把 数据 读 出 来 ， 使 


用 get 命令 : 


[defaultQüMyKeyspace] get User['ehewitt'] 
=> (column-666e616d65, value-Eben, timestamp-1282510290343000) 


=> (column-656d61696c, value-meQexample.com, timestamp-128251031 
Returned 2 results. 





可 以 使 用 del 命令 来 删除 一 列 。 这 里 将 针对 ehewitt 的 行 键 值 
(row key) 删除 email 列 : 


[defaultQMyKeyspace] del User['ehewitt']['email'] 
column removed. 


SUE ER SE Tr RARER E TRA. RIRÉfESHIdel 命令 ， 
不 过 这 次 不 指定 列 的 名 字 了 : 


[defaultQMyKeyspace] del User['ehewitt'] 
row removed. 


要 确定 这 行 已 经 被 删除 了 ， 可 以 再 得 询 一 次 : 


[defaultQKeyspacei] get User['ehewitt'] 
Returned 0 results. 





2.6 ”小 结 


现在 ， 你 已 经 安装 好 一 个 Cassandra 集 群 并 运行 起 来 了 。 我 们 已 
经 通过 命令 行 客 户 端 插入 和 取出 了 一 些 数据 ， 在 真正 深入 细节 
之 前 ， 该 来 看 看 Cassandra 的 人 全貌 了 。 





第 3 章 ”Cassandra 的 数据 模型 


在 本 章 中 ， 我 们 将 尝试 理解 Cassandra 的 设计 目标 、 数 据 模型 以 
及 一 些 一 般 的 行为 特征 。 


对 于 关系 型 数据 库 的 开发 者 和 管理 员 来 说 ， 理 解 Cassandra 的 数 
据 模型 起 先 可 能 有 不 少 困难 。 一 些 名 词 是 全 新 的 ， 比 如 
keyspace， 还 有 一 些 词 可 能 有 不 同 的 含义 ， 比 如 “ 列 *”。 如 果 你 
尝试 直接 去 对 应 Dynamo 或 是 BigTable 的 文件 ， 可 能 也 容易 混 
i 因为 虽然 Cassandra 是 以 它们 为 赣 本 的 ， 但 却 有 上 自己 的 模 
型 。 








所 以 ， 本 章 将 从 一 些 共 有 的 概念 入 手 ， 然 后 再 去 熟悉 那些 新 的 
名 词 。 之 后 ， 我 们 会 进行 一 些 实际 的 建 模 ， 以 便 帮 助 各 位 读者 
了 解 如 何 从 关系 型 数据 库 跨 越 到 Cassandra 的 世界 来 。 


3.1 关系 型 数据 模型 


在 关系 型 数据 库 中 ， 我 们 拥有 数据 库 本 里 ， 这 一 般 是 对 应 于 单 
个 应 用 的 最 外 层 的 容器 。 数 据 库 里 包含 右 干 张 表 。 表 有 名 字 和 
一 个 或 多 个 列 ， 每 个 列 也 有 名 字 。 当 问 表 里 谎 加 数据 的 时 候 ， 
要 指定 每 一 列 对 应 的 值 。 如 果 对 于 革 一 列 ， 没 有 值 相对 应 ， 束 
要 置 空 (null) 。 这 组 新 的 数据 项 给 表 添 加 了 一 行 ， 之 后 ， 

如 果 我 们 知道 这 行 的 唯一 标识 《主键 》 ， 还 可 以 读 出 这 行内 

fr; 否则， 惑 使 用 SQL 得 询 语句 来 表达 约束 条 件 来 匹配 这 行内 
容 。 如 果 布 望 更 新 表 中 的 内 容 ， 则 既 可 以 更 新 所 有 行 也 可 以 更 
新 部 分 行 ， 更 新 的 范围 可 以 使 用 SQL 语句 中 的 where 子 句 来 选 
定 。 


为 了 学 习 Cassandra， 最 好 暂时 先 把 这 些 来 自 关 系 型 数据 库 的 知 
识 抛 在 脑 后 。 
































3.2 简介 
本 节 我 们 将 采用 自 底 向 上 的 方法 来 理解 Cassandra 的 数据 模型 。 
可 能 你 想 要 的 最 简 持 的 数据 存储 机 制 束 是 数组 或 列表 了 ， 如 图 


3-1 所 示 。 


图 3-1: 值 的 列表 


如 果 你 永久 保存 了 这 个 列表 ， 束 可 以 在 之 后 进行 查询 ， 但 可 能 
需要 逐个 查看 值 的 内 容 来 判断 这 些 值 都 表达 了 什么 舍 义 ， 或 者 
需要 永远 将 每 一 个 值 放 在 列表 中 国定 的 地 方 ， 之 后 通过 描述 数 
所 结构 的 外 部 文档 来 记录 每 个 位 置 都 是 什么 值 。 这 样 ， 你 可 能 
束 不 得 不 保存 一 些 空 的 占 位 内 容 (如 null)， 以 便 你 持 列 表 大 
小 一 致 ， 即 使 某 些 可 选 的 属性 的 值 并 不 存在 《比如 传真 号 码 或 
a 


于 是 ， 考 虑 给 列表 添加 第 二 个 维度 : 值 对 应 的 名 称 。 我 们 给 每 
个 元 系 一 个 名 称 ， 现 在 有 了 一 个 映射 (map) 结构， 如 图 3-2 所 


外。 








图 3-2: “名 / 值 ? 对 的 映射 


现在 可 以 知道 一 个 值 的 名 称 了 ， 这 当然 是 一 个 重大 进步 。 如 果 
我 们 决定 用 这 个 映射 来 存放 用 户 信 息 ， 那 么 列 名 应 包含 first 
name, last name, phone, email 等 ， 显 然 ， 这 是 一 个 更 


丰富 的 数据 结构 。 


但 是 ， 我 们 建立 的 数据 结构 只 在 摘 述 对 象 仅 拥 有 一 个 实例 的 时 
候 才 能 工作 ， 比 如 一 个 人 人、 用户、 宾馆 或 是 一 条 消息 
(Tweet) 。 如 果 希 望 在 一 个 数据 结构 里 存放 多 个 对 象 就 不 那 
么 容易 了， 但 我 们 常常 就 希望 这 么 做 。 到 目前 为 止 ， 我 们 还 不 
能 创建 一 个 统一 的 “名 / 值 ?映射 的 集合 ， 也 无 法 重复 相同 的 列 
名 。 我 们 需要 的 实际 是 把 某 些 列 值 分 成 一 组 ， 从 而 可 以 单独 地 
分 组 访问 。 需 要 一 个 键 值 来 访问 一 组 列 ， 这 一 组 列 可 以 看 做 是 
一 个 集合 。 而 且 还 需要 行 。 于 是 ， 如 采 读 取 一 行 ， 束 可 以 获取 
一 个 对 象 的 所 有 名 / 值 对 ， 或 者 获取 我 们 所 关心 的 名 称 下 的 
值 。 我 们 把 每 个 拥有 某 组 列 的 集合 的 对 象 称 为 行 ， 每 个 行 的 
唯一 标识 称 为 行 键 值 (row key) 。 


Cassandra 还 定义 了 一 个 列 族 的 概念 ， 用 作 人 逻辑 上 的 分 组 ， 联 
系 起 相似 的 数据 。 比 如 ， 可 能 有 一 个 用 户 列 族 、 一 个 宾馆 列 
族 、 一 个 地 址 短 列 族 等 。 依 照 这 个 方法 ， 一 个 列 族 大 致 类 似 于 
关系 数据 库 领 域 中 的 一 张 表 。 


把 上 面 提 到 的 这 些 概 念 放 在 一 起 ， 就 有 了 Cassandra 的 基本 数据 

结构 : 列 ， 也 就 是 名 / 值 对 《〈 和 客户 端 还 会 提供 一 个 最 近 一 次 更 

; 列 族 ， 就 是 为 具有 相似 但 不 同 列 集合 的 行 而 准 
的 容器 。 


关系 数据 库 中 ， 习 惯 使 用 字符 串 来 存储 列 名 这 是 唯一 被 多 
许 的 。 但 是 在 Cassandra 里 ， 没 有 类 型 的 限制 。 行 键 值 和 列 名 都 
可 以 和 关系 型 数据 库 一 样 是 字符 串 ， 但 也 可 以 是 长 整数 、 







































































UUID 或 其 他 任何 类 翟 的 字 节 数组 。 所 以 ， 刍 名 的 设置 焉 更 丰 


FH 


这 揭示 了 Cassandra 的 列 的 另 一 个 有 趣 特质 : 它们 不 必 是 简单 的 
预先 设 定 的 “ 键 值 对 ”的 关系 ; 你 不 仅 可 以 在 “ 值 ? 里 存放 有 用 数 
据 ， 在 “ 键 ? 里 也 同样 可 以 。 在 Cassandra 中 创建 索引 时 常常 就 是 
这 样 。 我 们 先 不 必 关 急 往 前 走 这 么 远 。 


现在 ， 我 们 不 需要 在 存储 一 个 新 元 到 时 就 为 每 列 都 存储 一 个 
值 。 也 许 我 们 还 不 知道 某 个 元 素 每 列 的 值 。 比 如 ， 有 些 人 有 第 
二 个 电话 号 码 ， 而 很 多 人 人 没有， 而且 在 一 个 Cassandra 支 持 的 在 
线 表单 中 ， 可 以 允许 有 些 域 是 可 选 的 ， 有 些 域 是 必 选 的 。 这 些 
都 可 以 。 而 且 ， 不 知道 的 值 也 不 必 存 储 一 个 null 来 浪费 空 
间 ， 我 们 根本 不 会 为 某 些 行 存 储 那 些 列 。 这 样 ， 就 有 了 如 网 3- 
3 的 一 个 稀 焉 、 多 维 的 数组 结构 了 。 














图 3-3: 列 族 


一 个 JSON (JavaScript 对 象 标记 〉 的 例子 可 能 比 一 个 图 片 更 有 
助 于 理解 : 


Musician: ColumnFamily 1 
bootsy: RowKey 
email: bootsyQpfunk.com,  ColumnName:Value 
instrument: bass ColumnName:Value 
george: RowKey 
email: georgeQpfunk.com ColumnName:Value 


Band: ColumnFamily 2 
george: RowKey 
pfunk: 1968-2010 ColumnName:Value 











这 里 有 两 个 列 族 : 音乐 家 和 乐队 。 音 乐 家 列 族 有 两 行 
bootsy 和 george。 这 两 行 都 有 一 两 个 列 : boosty 有 两 列 〈email 
和 instrument) ， 而 george 只 有 一 列 。 这 对 Cassandra 来 说 没什么 
问题 。 第 二 个 列 族 是 乐 了 从， 里 面 也 有 george 行 ， 并 且 有 一 个 
pfunk 列 。 


Cassandra 中 的 列 实际 还 有 第 三 个 元 际 时 间 惟 ， 时 间 戳 记录 了 列 
上 一 次 被 更 新 的 时 间 。 不 过 ， 时 间 戳 并 不 是 一 个 上 自动 的 元 数据 
属性 ， 客 户 端 在 写 数据 的 时 候 必 须要 同时 提供 时 间 惟 的 值 。 不 
能 通过 时 间 惟 得 询 数 据 ， 时 间 惟 仅 用 于 在 服务 端 解雇 冲突 。 














-fe 行 没有 时 间 戳 ， 只 有 每 个 单独 的 列 才 有 时 间 戳 。 


那么 ， 如 采 需 要 增加 一 组 相关 的 列 该 如 何 做 ， 能 不 能 在 这 之 上 
增加 一 个 新 的 维度 ? Cassandra 人 允许 我 们 使 用 超级 列 族 super 
column family) 来 完成 这 个 任务 。 超 级 列 族 可 以 看 做 是 映射 的 
映射 。 图 3-4 所 示 的 就 是 超级 列 族 。 











图 3-4: 超级 列 族 


一 个 列 族 中 的 一 行 是 一 个 名 / 值 对 的 集合 ， 而 超级 列 族 中 的 列 
还 包含 有 一 组 子 列 。 所 以 在 一 个 普通 的 列 族 里 找到 一 个 值 可 以 
通过 行 键 值 和 列 名 来 找到 ， 而 在 一 个 类 型 为 “super” 的 列 族 中 寻 
址 需要 行 键 值 、 列 名 和 子 列 的 名 称 。 这 里 其 实 只 有 细微 的 莽 
别 ， 超 级 列 族 仍然 包含 列 ， 只 是 每 个 列 里 拥有 子 列 喷 了 。 


这 些 就 是 自 底 向 上 看 的 Cassandra 的 数据 模型 。 现 在 有 了 基本 的 
理解 ， 我 们 可 以 开 足 马力 上 升 到 更 高 的 层面 上 ， 以 目 顶 同 下 的 
方法 来 了 解 Cassandra。 数 据 模型 这 个 话题 非常 难以 理解 ， 所 以 
我 们 有 必要 换 一 个 角度 来 重新 描述 这 个 结构 ， 以 便 帮 助 读 者 更 
全 面 地 理解 Cassandra 的 数据 模型 。 

















3.3 ”集群 


如 果 只 运行 一 个 单 节点 ，Cassandra 大 概 不 是 最 佳 选 择 。 正 如 之 
前 提 到 的 ，Cassandra 数 据 库 系 统 是 为 跨越 多 台 主 机 共同 工作 ， 
对 用 户 呈 现 为 一 个 整体 的 分 布 式 系统 设计 的 。 所 以 ，Cassandra 
的 最 外 层 结构 就 是 集群 (cluster) ， 有 时 也 叫做 环 (ring) ， 
因为 Cassandra 将 集群 中 的 节点 组 织 成 一 个 环 ， 并 依 此 来 分 配 数 
据 到 集群 中 的 节点 上 。 


每 个 市 皮 会 存放 部 分 数据 的 一 个 副本 。 如 来 一 个 市 点 宕 机 了 ， 
它 的 男 一 个 副本 可 以 啊 应 查询 请 求 。P2P 协 议 允 许 数据 以 对 用 
户 透 明 的 方式 在 节点 间 互 相 复制 ， 副 本 因子 Re PUE ern 
的 相同 数据 的 副本 数量 。 我 们 会 在 第 6 草 里 详细 讨论 这 个 
话题 。 
































3.4 keyspace 





集群 是 keyspace 的 容器 ， 而 且 里 面 遂 常 只 有 一 个 keyspace。 
keyspace 是 Cassandra 中 数据 的 最 外 层 容 器， 和 关系 型 数据 库 的 
概念 非常 接近 。 与 关系 型 数据 库 类 似 ，keyspace 有 一 个 名 字 和 
一 些 定 义 了 整个 keyspace 范 围 的 全 局 行为 的 属性 。 虽 然 人 们 常 
第 建议 ， 给 每 个 应 用 建立 一 个 单独 的 keyspace 是 个 好 主意 ， 但 
实际 上 这 没有 太 多 事实 依据 。 这 当然 是 一 个 可 用 的 方式 ， 但 是 
按照 应 用 的 需要 创建 足够 的 keyspace 才 是 最 好 的 。 可 是 注意 ， 
要 是 给 一 个 应 用 创建 了 上 于 个 keyspace， 恺 介 难 免 会 遇 到 厅 
Jl e 


按照 选择 的 分 区 方式 ， 如 有 果 安 全 限制 允许 ， 可 以 将 多 个 
keyspace 放 在 同一 个 集群 里 。 比 如 ， 如 果 应 用 名 叫 Twitter， 你 
可 能 希望 集群 叫做 Twitter-CLuster ，keyspace 叫 做 Twitter 
。 据 我 所 知 ， 迄 今 为 止 还 没有 广 为 接 受 的 Cassandra 命 名 原则 可 
供 遵 循 。 


在 Cassandra 中 ， 可 以 针对 keyspace 设 置 的 基本 属性 有 如 下 几 
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副本 因子 (Replication factor) 


简单 地 说 ， 副 本 因子 残 是 每 行 数据 会 复制 到 多 少 个 市 点 
上 。 如 果 副 本 因子 是 3， 那 么 每 行 数据 将 会 复制 到 环 上 的 
三 个 节点 ， 复 制 过 程 对 于 客户 端 是 透明 的 。 


从 本 质 上 说 ， 副 本 因子 的 选择 决定 了 要 为 一 致 性 付出 多 少 
性 能 代价 。 也 就 是 说 ， 所 得 到 的 读 写 的 一 致 性 水 平 取 决 于 
副本 因子 的 设 定 。 














副本 放置 策略 (Replica placement strategy) 


副本 放置 策略 是 指数 据 的 副本 如 何 分 布 到 环 上 。Cassandra 
本 喘 有 多 种 可 选 的 放置 策略 ， 用 于 决定 键 值 到 节点 的 映射 
方式 。 这 些 策略 包括 : SimpleStrategy〈 简 单 策 略 ， 之 前 称 
为 RackUnawareStrategy， 非 机 架 感知 策略 》、 
OldNetworkTopologyStrategy( 旧 网 络 拓扑 策略 ， 之 前 称 关 
RackAwareStrategy， 机 架 感 知 策略 ) 和 NetworkTopology- 
Strategy〔 网 络 拓扑 策略 ， 之 前 称 大 
DatacenterShardStrategy， 数 据 中 心 分 片 策略 〉。 











列 族 (Column families) 


与 数据 库 是 表 的 容器 类 似 ，keyspace 是 一 个 或 多 个 列 族 的 
容器 。 列 族 就 类 似 于 关系 型 数据 库 里 的 表 ， 是 集合 了 很 多 
行 的 容器 。 每 一 行 都 有 一 些 有 序 的 列 。 列 族 的 设置 就 呈现 
了 数据 结构 ， 每 个 keyspace 都 至 少 有 一 个 列 族 ， 而 通常 会 
有 多 个 列 族 。 


这 里 ， 我 提 到 副本 因子 和 副本 放置 策略 是 因为 它们 都 是 每 个 
keyspace 的 设置 。 但 是 ， 它 们 并 不 直接 影响 数据 模型 本 号。 


虽然 一 般 不 建议 这 么 做 ， 但 可 以 为 一 个 应 用 创建 多 个 
keyspace。 通 常 只 有 和 希望 为 不 同 的 列 族 设 置 不 同 的 副本 因 了 于 和 
副本 放置 策略 的 时 候 ， 才 会 考虑 让 同一 个 应 用 使 用 多 个 不 同 
keyspace。 比 如 ， 对 于 一 些 低 优先 级 的 数据 ， 可 以 将 它们 单独 
放 在 一 个 设 有 较 低 副 本 因子 的 keyspace 当 中 ， 这 样 就 可 以 减少 
一 些 Cassandra 复 制 这 些 数 据 的 工夫 。 但 是 这 样 或 许 增加 了 太 
多 的 复杂 度 ， 有 可 能 得 不 偿 失 。 一 个 更 好 的 选择 大 概 是 开始 只 
建立 一 个 keyspace， 视 需求 再 决定 是 否 有 必要 调整 到 那个 级 
别 。 


















































3.5 JJ 


列 族 (column family) 是 容纳 一 组 有 序 的 行 的 容器 ， 每 行 都 

包含 一 组 有 序 的 列 。 在 关系 型 数据 库 世 界 里 ， 按 照 模型 来 建立 
数据 库 的 时 候 ， 会 首先 指定 数据 库 的 名 字 〈 对 应 于 keyspace ) 

和 表 的 名 字 《〈 有 些 类 似 于 列 族 ， 但 不 要 真 的 认为 两 者 是 一 回 

事 ， 因 为 事实 并 非 如 此 ) ， 然 后 定义 每 张 表 中 列 的 名 字 。 


有 几 个 不 错 的 原因 可 以 说 明白 列 族 和 关系 型 数据 库 中 的 表 实 际 
相去 甚 远 。 首 先 ，Cassandra 被 认为 是 无 shema 的 ， 因 为 尽管 定 
义 了 列 族 ， 但 没 定义 列 ， 你 可 以 随意 在 任意 列 族 中 添加 任意 的 
列 ， 只 要 需要 。 其 次 ， 列 族 有 两 个 属性 : 名称 和 比较 器 
(comparator) 。 比 较 器 是 在 查询 数据 时 返回 的 列 的 排序 方 
式 ， 可 以 根据 long、byte、UTF8 或 其 他 排序 方式 进行 。 


在 关系 型 数据 库 中 ， 表 在 磁盘 上 如 何 排序 通常 对 用 户 是 透明 
的 ， 而 且 很 少 有 人 会 建议 根据 RDBMS 如 何在 磁盘 上 存储 表 来 
进行 数据 建 模 的 。 这 是 另 一 个 需要 时 刻 注意 的 列 族 与 表 的 区 
列 。 因 为 每 个 列 族 在 磁盘 上 都 存储 为 不 同 的 文件 ， 所 以 把 相关 
的 列 放 在 同一 个 列 族 中 十 分 重要 。 


列 族 与 关系 型 数据 库 的 表 的 另 一 个 不 同 在 于 ， 关 系 型 数据 库 仅 
定义 了 列 ， 而 用 户 提 供 了 值 ， 这 就 是 行 。 但 在 Cassandra 中 ， 一 
个 列 族 可 以 放 很 多 个 列 ， 甚 至 可 以 定义 为 超级 列 族 。 使 用 超级 
列 族 的 好 处 是 允许 磐 套 定义 。 


标准 的 列 族 类 型 是 Standard， 这 是 默认 情况 ; 而 对 于 超级 列 
族 ， 它 的 类 型 被 设置 为 Super。 


向 一 个 Cassandra 列 族 中 写 数 据 的 时 候 ， 要 指定 一 个 或 多 个 列 的 
值 。 这 些 值 都 通过 称 为 行 的 唯一 标识 指定 。 行 有 唯一 的 键 值 ， 



































称 为 行 键 值 Crow key) ， 类 似 于 关系 型 数据 库 表 中 的 主键 ， 
可 以 唯一 标识 一 行 。 所 以 ， 说 Cassandra 是 面 回 列 的 并 不 确切 ， 
如 果 你 把 行 理 解 为 是 列 的 容器 倒是 更 有 利于 对 这 一 数据 模型 的 
理解 。 这 也 是 为 什么 一 些 人 认为 Cassandra 的 列 族 类 似 于 四 维 哈 
希 : 


我 们 可 以 用 一 种 类 似 JSON 的 方式 来 表示 Hotel 列 族 ， 如 下 : 


Hotel { 
key: AZC 043 ( name: Cambria Suites Hayden, phone: 480-444-4444 
address: 400 N. Hayden Rd., city: Scottsdale, state: AZ, zi| 
85255) 
key: AZS O41 ( name: Clarion Scottsdale Peak, phone: 480-333-3 
address: 3000 N. Scottsdale Rd, city: Scottsdale, state: AZ 
85255) 


key: CAS 021 ( name: W Hotel, phone: 415-222-2222, 
address: 181 3rd Street, city: San Francisco, state: CA, zi| 
94103] 

key: NYN 042 ( name: Waldorf Hotel, phone: 212-555-5555, 
address: 301 Park Ave, city: New York, state: NY, zip: 10014 














:为 了 简便 起 见 ， 这 里 不 考虑 列 的 时 间 惟 属性， 不 过 要 
记 住 ， 每 个 列 还 有 一 个 时 间 恰 。 


在 这 个 例子 中 ， 行 键 值 是 Hotel 列 族 的 唯一 主键 ， 其 中 的 列 包 

括 名 称 、 电 话 、 地 址 、 城 市 、 州 和 邮政 编码 。 虽 然 所 有 这 些 行 
恰巧 都 定义 了 这 些 相同 的 列 ， 但 实际 上 你 可 以 让 一 行 有 四 列 ， 

而 另 一 行 有 400 列 ， 并 且 两 者 没有 任何 交 三 ， 这 都 没什么 问 


E o 














* t 同一 行 的 所 有 数据 必须 存放 在 集群 中 的 同一 台 机 器 





上 ， 这 是 Cassandra 的 多 副本 设计 的 核心 要 求 。 这 一 限制 的 原 
因 在 于 每 行 都 有 一 个 关联 的 行 键 值 ， 这 个 键 值 决定 了 放置 数 
据 副 本 的 位 置 。 更 进一步 ， 每 列 的 大 小 不 能 超过 2 GB. fti 
计数 据 模 型 的 时 候 ， 请 时 刻 注意 这 些 限 制 。 


我 们 可 以 在 命令 行 客户 站 用 如 下 方法 得 询 列 族 : 


cassandra» get Hotelier.Hotel['NYN 042'] 
(column-zip, value-10019, timestamp-3894166157031651) 
(column-zstate, value=NY, timestamp-3894166157031651) 
(column-phone, value-212-555-5555, timestamp-3894166157031651 





(columnzname, value-The Waldorf-Astoria, timestamp-3894166157( 

(columnzcity, value=New York, timestamp-3894166157031651) 

(column-address, value-301 Park Ave, timestamp-38941661570316! 
Returned 6 results. 





结果 显示 ， 我 们 有 一 家 在 纽约 州 纽约 市 的 酒店 ， 但 因为 结果 是 
面向 列 的 ， 所 以 有 六 条 结果 ， 对 应 于 这 个 列 族 里 这 行 的 六 个 

列 。 注 意 ， 尽 管 这 行 有 六 个 列 ， 但 其 他 行 可 以 有 不 同 数 量 的 

列 。 


列 族 选项 


你 还 可 以 为 每 个 列 族 定 义 如 下 一 些 附加 的 参数 。 








e keys cached 








每 个 SSTable 中 缓存 的 位 置 数量 信息 。 这 里 指 的 不 是 列 的 名 
一 值 对 的 数量 ， 而 是 键 值 的 数量 ， 同 时 列 族 中 行 的 位 置 按 
照 最 近 最 少 用 (LRU) 的 方式 组 存在 内 存 之 中 。 








e rows cached 


缓存 进 内 存 中 的 整 行内 容 的 数量 ， 包 括 每 个 行 键 值 对 应 的 
所 有 名 值 对 的 列表 。 





e comment 


这 就 是 个 标准 的 注释 信息 ， 帮 你 记 住 列 族 定义 中 的 重要 信 
El 


JÒ 





read_repair_chance 


一 个 介 于 0 和 1 之 间 的 值 。 当 执行 查询 操作 而 没有 指定 读 时 
检验 要 求 的 一 致 副本 数 (quorum) ， 致 使 两 个 以 上 副本 返 
回 的 一 行 数据 的 值 出 现 歧义 时 ， 这 个 值 决定 了 进行 读 修复 
操作 的 概率 。 当 读 操 作 比 写 操作 多 很 多 时 ， 你 可 能 会 希望 
这 个 概率 低 一 些 。 


e preload row cache 
指定 是 否 在 服务 器 启动 时 预 读 一 部 分 行 缓存 。 
这 里 我 简化 了 一 下 这 些 定义 ， 实 际 上 这 些 主要 是 配置 信息 和 服 


务 器 行为 ， 与 数据 模型 关系 不 大 。 第 6 章 还 会 更 详细 地 介绍 这 
些 内 容 。 











3.6 7j 


列 Ccolumn?) 是 Cassandra 数 据 模 型 中 的 最 基本 数据 结构 单 

元 。 列 是 一 个 由 名 称 、 值 和 时 钟 构 成 的 三 元 组 ， 这 个 时 钟 可 以 
看 做 一 个 时 间 惟 。 再 次 强调 ， 虽 然 在 关系 型 数据 库 中 ， 我 们 非 
第 熟悉 列 这 个 名 词 ， 但 如 果 你 觉得 Cassandra 和 关系 型 数据 库 里 
的 列 是 一 样 的 ， 就 大 错 特 错 了 。 首 先 ， 在 关系 型 数据 库 中 ， 你 
需要 通过 预先 定义 所 有 列 的 名 字 来 指定 表 的 结构 ， 而 在 稍 后 写 
的 时 候 ， 则 只 要 根据 预先 定义 好 的 数据 结构 提供 值 束 可 以 了 。 


然而 ， 在 Cassandra 之 中 不 需要 预先 定义 列 ， 只 要 在 keyspace 里 
定义 列 族 ， 之 后 束 可 以 开始 写 数据 了 。 这 是 因为 Cassandra 之 中 
所 有 列 的 名 字 都 是 由 客户 并 提供 的 。 这 可 以 让 应 用 在 使 用 数据 
J ， 也 人 允许 数据 模型 随 着 时 间 推 移 来 循序 渐进 地 改 


























*" ** Cassandra 的 时 钟 是 在 0.7 版 本 引入 的 ， 但 今后 前 途 未 
卜 。 在 0.7 版 本 以 前 ， 它 叫做 时 间 惟 ， 融 是 一 个 Java 的 长 整 型 
数 。 现 在 修改 后 支持 癌 量 时 钟 (vector clock) ， 这 是 一 种 分 
布 式 系 统 中 的 冲突 解决 方法 ， 用 于 Amazon Dynamo. X 
束 是 为 什么 列 的 三 元 组 中 最 后 一 个 既是 时 间 惟 ， 叉 是 时 钟 
了 。 问 量 时 钟 最 终 可 能 会 成 为 Cassandra 0.7 的 一 部 分 ， 也 可 
能 不 会 ， 尚 未 最 终 确 定 ， 本 书写 作 时 还 是 Beta 版 。! 
译注 1: 最 终 发 布 的 0.7 并 不 包含 向量 时 钟 ， 该 方案 已 经 被 最 终 放 弃 〈Cassandra-580) ， 在 下 
一 个 版 本 中 ， 还 会 包含 一 个 新 的 冲突 解决 方案 (Cassandra-1072) 
名 称 和 值 的 数据 类 型 是 Java 的 字 节 数组 ， 内 容 经 名 是 字符 串 。 
因为 名 称 和 值 是 二 进 制 类 型 的 ， 所 以 它们 可 以 是 任意 长 度 的 。 
时 钟 的 接口 类 型 是 org.apache.cassandra.db.IClock?， 但 
































0.7 版 本 仍然 后 同 鳞 容 之 前 的 时 间 戳 。 列 的 数据 结构 如 图 3-5 所 
ZN o 


译注 2: 这 一 新 加 入 的 类 型 在 0.7 发 布 前 被 撤回 了 。 





Column 


图 3-5: 列 的 数据 结构 








* 1? Cassandra 0.7 引 入 了 一 个 可 选 的 生存 时 间 CTTLO > fe 
许 列 在 创建 之 后 的 一 段 时 间 后 过 期 。 这 可 能 会 非常 有 用 。 


这 是 一 个 列 的 例子 ， 清 晰 起 见 ， 使 用 JSON 格 式 给 出 : 
{ 


"name": "email", 
"value: "meQexample.com", 
"timestamp": 1274654183103300 





j 


在 这 个 例子 中 ， 列 的 名 称 是 email， 更 精确 地 说 ， 名 称 属性 的 
值 是 email。 回 忆 一 下 ， 一 个 列 族 可 以 有 多 个 键 值 〈 或 行 键 
值 )， 其 他 的 行 可 能 也 有 这 个 列 。 这 就是 为 什么 从 关系 型 模型 
转换 到 Cassandra 的 模型 很 困难 了 : 我 们 总 是 在 想 ， 关 系 型 数据 
库 的 每 行 都 有 相同 的 列 。 但 在 Cassandra 里 ， 每 个 列 族 有 很 多 
行 ， 每 个 行 可 以 有 相同 的 ， 也 可 以 有 不 同 的 列 的 集合 。 


在 服务 器 端 ， 列 是 不 可 变 的 ， 以 防止 多 线程 问题 。Cassandra 
中 ， 列 定义 于 org.apache.cassandra.db.IColumn 接口 ， 
它 人 允许 进行 很 多 操作 ， 包 括 以 字 节 数组 类 型 获取 值 ， 或 是 作为 
超级 列 族 ， 以 Collection<IColumn> 类 型 返回 子 列 ， 以 及 查 











找 最 近 改 动 时 间 等 。 


在 关系 型 数据 库 中 ， 所 有 的 行 都 存储 在 一 起 。 早 期 版 本 的 
Cassandra 并 非 如 此 ， 但 0.6 版 本 以 后 的 Cassandra 中 ， 同 一 个 列 
族 的 行 也 都 在 磁盘 上 存储 在 一 起 。 











Ps essit Hon. RISE YT a 
现 需 要 使 用 join， 那 要 么 不 得 不 在 客户 端 进 行 ， 要 么 创建 一 
个 反 范 式 化 辅助 列 族 ， 用 于 存放 join 的 结果 。 这 对 于 
Cassandra 的 用 户 来 说 非常 普 裔 。 在 客户 端 进行 join 的 情况 非 
党 少 ， 相 反 ， 你 真正 需要 的 是 复制 〈 反 范式 化 ) 数据 。 

















3.6.1 951] 3^EÍT 





在 为 传统 的 关系 型 数据 库 设计 表 的 时 候 ， 通 津 是 在 处 理 条 目 ， 
或 者 是 在 处 理 一 个 描述 特定 名 词 〈 如 宾馆 、 用 户 、 产 品 等 ) 的 
属性 集 。 不 会 过 多 考虑 行 本 里 的 尺寸 ， 因 为 一 旦 决定 了 要 在 行 
里 放 什 么 ， 尺 寸 的 问题 就 没 的 商量 。 但 是 ， 在 使 用 Cassandra 
Waa 


冤 行 意味 着 行 有 很 多 很 多 列 〈( 可 能 包含 上 万 甚至 上 百 万 列 〉。 
经 常会 有 一 些 行 有 很 多 列 。 相 反 情 况 下 ， 可 能 会 类 似 关 系 模 
型 ， 可 以 定义 很 少 的 列 ， 但 会 有 很 多 不 同 的 行 ， 这 束 是 罕 行 模 


29, 
























































TUTTI ERA EE SE RKTIAA n. UHUUIDEKHEIIB]EX. HTE 
一 个 列表 。 比 如 一 个 监控 程序 ， 你 可 以 用 一 行 来 存放 一 个 小 时 
的 时 间 上 请， 使 用 修订 的 时 间 戳 作为 行 键 值 ， 用 列 来 存储 这 个 时 
0 














罕 行 比较 类 似 传 统 的 RDBMS 行 ， 每 行 包含 了 类 似 的 列 的 名 
字 。 与 RDBMS 行 的 区 别 在 于 ， 所 有 的 列 实际 都 古 可 选 的 。 


冤 行 与 罕 行 的 男 一 个 区 别 是 ， 通 常 只 有 宽 行 才 会 考虑 列 名 的 排 
序 问题 。 下 节 就 讨论 这 个 问题 。 


3.6.2 JI HET 


列 的 定义 之 中 有 另外 的 一 个 元 素 。 在 Cassandra 中 ， 在 结果 返回 
给 客户 问 的 时 候 ， 可 以 指定 列 的 名 字 如 何 进 行 比较 和 排序 。 列 
通过 列 族 中 定义 的 “Compare With” 类 型 来 排序 ， 可 以 从 如 下 类 
型 中 选择 : AsciiType 、BytesType LexicalUUIDType 

. IntegerType 、LongType 、TimeUUIDType 和 UTF8Type 























e AsciiType 


直接 通过 比较 字 节 进行 排序 ， 每 个 输入 都 需要 验证 是 否 符 
合 US-ASCII 编 码 。US-ASCI 是 按照 英文 字母 表 的 顺序 进 
行 编码 的 。ASCII 定 义 了 128 个 字符 ， 其 中 94 个 是 可 打印 

的 。 








BytesType 


这 是 默认 的 排序 方法 ， 直 接 比 较 字 节 ， 不 检查 字 节 的 内 容 
是 否 符合 某 种 编码 。 以 BytesType 作为 默认 排序 方法 的 一 
个 原因 是 ， 对 于 大 部 分 类 型 (包括 UTF-8 和 ASCII) 来 说 ， 
按照 字 节 排序 都 是 正确 的 。 


LexicalUUIDType 

















一 个 16 字 节 〈128 位 ) 的 全 局 唯一 标识 UUD) ， 进 行 字 


的 排序 。 


LongType 


按照 8 字 市 (64 位) 的 长 整 型 数值 进行 排序 。 


IntegerType 


这 是 0.7 引 入 的 ， 比 长 整 型 更 快 ， 人 允许 使 用 比 LongType 的 
64 位 更 多 或 更 少 的 位 数 。 


TimeUUIDType 


使 用 16 字 节 (12847) 时 间 惟 进行 排序 。 有 五 个 通用 的 时 
间 惟 UUID 生 成 方法 。Cassandra 使 用 的 是 第 一 种 ， 这 是 一 
种 用 计算 机 的 MAC 地 址 和 从 公历 纪年 开始 的 以 100 纳 秒 为 
单位 的 时 间 值 生成 的 编号 。 


UTF8Type 


UTF-8 字 符 编 码 的 字符 串 。 看 起 来 很 适合 作为 默认 排序 类 
型 ， 因 为 这 会 让 使 用 XML 和 其 他 需要 公共 编码 格式 的 数据 
交换 方式 的 程序 员 感 到 很 舒服 ， 但 在 Cassandra 中 ， 除 非 你 
需要 验证 数据 ， 奋 则 不 要 使 用 UTF8Type 。 

















Custom 


如 果 愿 意 ， 你 可 以 创建 自己 的 排序 算法 。 和 Cassandra 中 的 
很 多 东西 一 样 ， 这 也 是 方便 易 用 的 ， 你 需要 做 的 就 是 扩 
展 org.apache.cassandra.db.marshal.AbstractType 
， 并 指定 目 己 的 类 名 。 


列 名 的 存储 是 按照 compare_with 的 值 来 排序 的 ， 行 则 按照 分 











区 器 定义 的 顺序 排序 存储 的 (比如 使 用 RandompPartitioner， 就 
是 随机 顺序 的 ) 。 我 们 会 在 第 6 章 里 介绍 。 


在 Cassandra 之 中 是 无 法 像 关 系 型 数据 库 那 样 按照 值 来 排序 的 。 
虽然 这 看 起 来 是 个 很 奇怪 的 限制 ， 但 这 是 因为 Cassandra 必 须 按 
照 列 名 来 排序 ， 以 便 能 从 一 个 很 宽 的 行 里 高 效 取 出 一 列 ， 而 无 
需 把 每 列 都 读 入 内 存 。 性 能 是 Cassandra 的 重要 卖点 ， 而 实时 排 
序 非 常 影响 性 能 。 



































"te 列 排序 是 可 控 的 ， 但 键 值 排序 不 是 ， 行 键 值 总 是 按照 
字 节 序 来 排序 的 。 





3.7 ”超级 列 


超级 列 (super column) 是 一 种 特殊 的 列 。 两 种 列 都 是 名 / 值 
对 ， 但 普通 列 的 值 是 字 节 数组 ， 而 超级 列 的 值 是 一 个 子 列 的 映 
射 。 超 级 列 不 能 存储 其 他 超级 列 的 映射 。 也 束 是 说 ， 超 级 列 仅 
允许 使 用 一 屋 ， 但 是 它 并 不 限制 列 的 数量 。 


超级 列 的 基本 数据 结构 包含 它 的 名 字 和 它 存储 的 列 ， 它 的 名 字 


和 普通 的 列 一 样 ， 是 字 节 数组 〈 见 图 3-6) 。 它 存储 的 列 保存 
为 一 个 映射 ， 键 值 是 列 的 名 字 ， 而 值 是 那些 列 。 


: SuperColumn 

















: name: byte[] | cols : Map«byte[], IColum> 


图 3-6: 超级 列 的 基本 结构 


每 个 列 族 在 磁盘 上 都 存储 在 自己 单独 的 文件 中 。 所 以 ， 要 优化 
Cassandra 的 性 能 ， 将 经 党 一 起 查询 的 内 容 保存 在 同一 个 列 族 非 
各 重要 ， 用 超级 列 可 以 帮助 你 更 容易 地 做 到 这 点 。 


SuperColumn 类 既 实 现 了 IColumn 类 ， 也 实现 了 
IColumnContainer 类 ， 两 者 都 位 于 
org.apache.cassandra.db 包 内 。Cassandra 进 行 远程 操作 所 
使 用 的 底层 RPC 序 列 化 机 制 是 Thrift API。 因 为 Thrift API 不 能 
标记 继承 关系 ， 所 以 ， 有 时 API 会 表示 
JjColumnOrSupercolumn 类 型 ， 当 数据 结构 使 用 这 个 类 型 表 
示 时 ， 你 需要 了 解 外 层 的 列 族 类 型 是 Super 还 是 Standard 。 

















公有 趣 的 事实 ， 超 级 列 是 Facebook 给 Google 的 Bigtable 数 


据 模型 增加 的 更 新 之 一 。 


这 里 我 们 看 到 了 一 些 更 丰富 的 数据 模型 。 当 使 用 之 前 看 到 的 普 
通 列 时 ，Cassandra 看 起 来 像 是 一 个 四 维 哈 希 表 。 但 当 引 入 超级 
列 时 ， 它 变 成 了 一 个 五 维 哈 希 : 


[Keyspace] [ColumnFamily ][Key][SuperColumn][SubColumn] 


要 使 用 超级 列 ， 丈 需要 定义 列 族 类 型 为 Super 。 然 后 ， 和 用 普 
通 列 一 样 ， 仍 然 使 用 行 键 值 ， 但 这 个 行 键 值 指 向 的 是 一 个 普通 
列 的 列表 或 是 映射 的 名 字 了 ， 这 里 的 普通 列 有 时 也 叫做 子 列 


o 


这 里 有 一 个 名 为 PointofInterest 的 超级 列 族 定 义 作 为 例 
子 。 在 酒店 行业 中 ， 兴 趣 点 (point of interest) 是 酒店 附近 旅 
客 可 能 乐于 造访 的 地 方 ， 比 如 公园 、 博 物 迄 、 动 物 园 或 旅游 景 


o 





























4 





PointOfInterest (SCF) 
SCkey: Cambria Suites Hayden 
{ 


key: Phoenix Zoo 


phone: 480-555-9999, 
desc: They have animals here. 


}, 


key: Spring Training 


phone: 623-333-3333, 
desc: Fun for baseball fans. 





3 
), // Cambria 行 结束 
SCkey: (UTF8) Waldorf=Astoria 


key: Central Park 
desc: Walk around. It's pretty. 


3 
key: Empire State Building 


phone: 212-777-7777, 
desc: Great view from the 102nd floor. 





PointOfInterest 超级 列 族 有 两 个 超级 列 ， 每 个 对 应 于 一 个 
不 同 的 酒店 (Cambria Suites Hayden 和 Waldorf=Astoria) , 47 
键 值 是 不 同 的 兴趣 点 的 名 字 ， 比 如 Phoenix Zoo 或 是 Central 
Park。 每 行 都 有 一 些 列 作为 描述 (desc 列 ) ， 有 些 行 有 电话 号 
人 码 ， 而 有 些 没 有 。 这 和 关系 型 数据 库 的 表 不 同 ， 关 系 型 数据 库 
的 表 里 每 行 结构 都 是 一 样 的 ， 而 列 族 和 超级 列 里 仅仅 是 一 组 类 
似 的 记录 而 已 。 








使 用 命令 行 ， 我 们 可 以 查询 超级 列 族 : 


cassandra» get PointOfInterest['Central Park']['The waldorf-Asto 


['desc'] => (column-desc, value-Walk around in the park. 
It's pretty., timestamp -1281301988847) 





这 个 查询 是 说 ， 在 PointofInterest 列 族 〈 类 型 是 Super ) 
中 ， 使 用 行 键 值 “Central Park”， 对 于 超级 

列 “Waldorf=Astoria”， 取 “desc” 列 的 值 ， 也 束 是 取 这 个 兴趣 点 
的 文字 摘 述 。 

组 合 键 

使 用 超级 列 进 行 建 模 的 时 候 ， 需 要 考虑 一 个 重要 的 问题 : 


Cassandra 不 对 子 列 进 行 索引 ， 所 以 ， 当 加 载 一 个 超级 列 进入 内 
存 的 时 候 ， 所 有 子 列 都 会 被 载 入 。 

















“全 这 个 问题 由 Twitter 的 负 责 人 Ryan King 发 现 ， 可 能 会 在 
将 来 的 版 本 中 解决 。 但 这 个 改动 要 牵扯 到 底层 存储 文件 


(SSTable) ， 还 尚未 完成 。 


现在 你 可 以 使 用 一 个 自己 设置 的 组 合 键 绕 过 这 个 问题 。 组 合 键 
看 起 来 就 像 &ltuserid: lastupdate> 。 


这 些 都 是 在 建 模 时 考虑 的 问题 ， 当 你 进入 到 实战 阶段 的 时 候 会 
回来 检查 这 些 问 题 。 不 过 ， 如 果 数 据 模 型 将 来 可 能 会 有 上 干 个 
子 列 ， 那 么 你 可 能 束 应 该 采用 其 他 什么 方法 ， 而 不 是 超级 列 
了 。 蔡 代 方 法 之 一 就 是 组 合 键 。 与 使 用 超级 列 里 的 子 列 不 同 ， 
组 合 键 使 用 普通 列 族 里 的 普通 列 ， 只 是 在 键 的 名 字 里 加 入 一 个 
人 UMS USC 


这 是 一 个 组 合 键 的 例子 ， 这 个 例子 还 用 在 了 Cassandra 具 体 化 视 
图 设计 模式 里 ， 同 时 也 使 用 了 一 种 我 称 之 为 无 值 列 的 Cassandra 

















常用 设计 模式 : 


HotelByCity (CF) Key: city:state 
key: Phoenix:AZ {AZC_043: -, AZS 011: -} 
key: San Francisco:CA {CAS 021: -} 


key: New York:NY (NYN 042: -} 





j 


这 里 发 生 了 三 件 事情 。 首 先 ， 我 们 在 外 部 定义 了 一 个 称 

为 Hotel 的 列 族 ， 但 还 可 以 再 创建 一 个 叫做 HotelByCity 的 

列 族 ， 存 放 酒 店 信息 的 反 范式 化 数据 。 我 们 以 不 同 的 方式 重复 
保存 了 同样 的 信息 ， 这 和 RDBMS 里 的 视图 非常 类 似 ， 因 为 它 

允许 我 们 更 快 和 更 直接 地 进行 查询 。 其 次 ， 当 要 通过 城市 来 查 
询 酒店 时 《因为 很 多 客户 都 是 通过 城市 来 搜索 酒店 的 ) ， 可 以 
创建 一 个 表 来 定义 新 的 行 键 值 去 搜索 ， 但 是 ， 不 同 的 州 有 很 多 
同名 的 城市 〈 想 想 Springfield) 3 ， 所 以 我 们 不 能 直接 使 用 城市 
的 名 字 作 为 行 键 值 ， 应 该 加 上 州 的 名 字 。 


译注 3: 美国 伊利 话 伊 州 首 府 ， 男 在 俄 北 俄 州 也 有 同名 城市 。 









































再 后 ， 我 们 使 用 另 一 个 称 为 无 值 列 〈valueless column) 的 模 
式 。 我 们 需要 知道 的 只 是 城市 里 有 哪些 酒店 ， 不 需要 反 苑 式 化 
更 多 的 东西 了 。 所 以 ， 这 些 列 的 名 字 就 是 它们 的 值 ， 而 不 需 
要 对 应 的 值 了 。 这 样 ， 在 插入 列 的 时 候 ， 只 需要 保存 一 个 空 的 
字 节 数组 作为 值 就 可 以 了 。 

















3.8 ”Cassandra 与 RDBMS 的 设计 差别 








Cassandra 的 模型 和 查询 方式 与 RDBMS 有 很 多 的 不 同 ， 记 住 这 
些 差 异 非 党 重要 。 








3.8.1 没有 查询 语言 





SQL 是 关系 型 数据 库 的 标准 查询 语言 ，Cassandra 却 没有 查询 语 
言 。 不 过 Cassandra 确 实 也 有 自己 的 RPC 序 列 化 机 制 ，Thrift。 
通过 Thrift API， 用 户 可 以 访问 其 中 的 数据 。 


3.8.2 ”没有 引用 完整 性 


Cassandra 没 有 引用 完整 性 的 概念 ， 因 而 没有 join 的 概念 。 在 关 
系 型 数据 库 中 ， 你 可 以 在 一 个 表 中 指定 一 个 外 部 键 值 ， 以 此 引 
用 男 一 个 表 中 记录 的 主键 。 但 是 ，Cassandra 并 没有 提供 这 个 功 
能 。 存 储 其 他 表 中 的 相关 ID 是 一 个 通用 需求 ， 这 仍然 是 被 支持 
的 ， 但 Cassandra 里 没有 级 联 删除 这 样 的 概念 。 














3.8.3 ”第 二 索引 
第 二 索引 确实 是 一 个 有 用 的 功能 ， 比 如 你 需要 找到 具有 某 个 属 
性 的 酒店 的 唯一 ID， 在 关系 型 数据 库 里 ， 可 能 这 么 查询 ; 


当 你 知道 酒店 的 名 字 却 不 知道 ID 的 时 候 ， 肯 定 想 这 么 查询 这 个 
酒店 。 关 系 型 数据 库 如 果 接 到 这 个 合 询 ， 会 进行 一 个 全 表 扫 
Hi, MART name 列 ， 碍 找 所 需要 的 名 字 。 如 宋 表 很 大 ， 











这 种 查询 可 能 会 很 慢 。 对 这 种 情况 ， 关 系 型 数据 库 的 解决 方案 
就 是 为 这 列 建 一 个 索引 ， 相 当 于 这 部 分 数据 的 一 个 副本 ， 来 帮 
助 更 快 地 检索 数据 。 因 为 HotelID 已 经 是 一 个 主键 约束 了 ， 主 
键 会 自动 进行 索引 ， 也 就 是 主 索 引 ， 所 以 ， 对 name 列 建立 的 
自然 就 是 第 二 索引 ， 目 前 Cassandra 仍 然 不 支持 第 二 索 
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译注 1: 如 下 文 提 到 ，Cassandra 0.7 加 入 了 对 第 二 索引 的 支持 ， 该 版 本 在 翻译 时 已 经 发 布 了 。 


要 在 Cassandra 中 做 到 同样 的 事情 ， 需 要 创建 另 一 个 列 族 来 存储 
查询 信息 。 你 可 以 创建 一 个 列 族 来 存储 酒店 名 ， 并 将 它们 映射 
到 酒店 的 ID。 第 二 列 族 实际 上 起 到 一 个 显 式 的 第 二 索引 的 作 
用 。 
































~“ 汉 第 二 索引 目前 正在 被 加 入 到 Cassandra 0.7 之 中 来 ， 人 允许 
为 列 值 建立 索引 。 所 以 ， 如 果 你 希望 找到 所 有 居住 在 指定 城 
市 的 用 户 ， 第 二 索引 的 支持 将 会 让 你 不 必 费 力 手 工 建立 第 二 
索引 列 族 了 。 


3.8.4 ”排序 成 为 一 种 设计 决策 


在 RDBMS 中 ， 可 以 在 查询 中 使 用 ORDER BY 来 轻松 改变 返回 
记录 的 顺序 。 默 认 的 排序 方法 确实 是 不 可 配置 的 ， 默 认 情 况 
下 ， 记 录 按 照 它 们 写 入 的 顺序 被 恋 出 。 如 果 和 希望 改变 顺序 ， 只 
要 改变 查询 语句 即 可 ， 而 且 可 以 对 任意 一 组 列 进 行 排序 。 但 在 
Cassandra 之 中 ， 排 序 就 不 同 了 ， 它 变 成 了 一 个 设计 决策 。 列 族 
的 定义 中 包含 一 个 compareWith 配置 元 素 ， 这 个 配置 指定 了 
行 在读 出 的 时 候 按 照 什 么 方式 排序 ， 它 在 查询 的 时 候 是 无 法 重 
新 配置 的 。 


RDBMS 限 制 你 只 能 基于 存储 在 列 中 的 数据 类 型 来 进行 排序 ， 






































但 Cassandra 存 储 的 数据 是 字 节 数组 ， 所 以 这 种 用 指定 数据 类 型 
排序 的 方法 是 行 不 通 的 。 不 过 ， 你 能 做 的 是 把 列 当 做 几 种 可 排 
序 的 类 型 之 一 (ASCII. LONG. integer. TimestampUUID 
、 字 和 典 排序 等 ) 。 如 果 需 要 ， 你 还 可 以 使 用 自己 实现 的 比较 器 
来 进行 排序 。 


此 外 ，Cassandra 里 没有 SQL 里 的 ORDER BY 和 GROUP BY i& 
句 。 有 一 个 查询 的 类 型 称 为 SliceRange ， 在 第 4 章 里 会 介绍 
到 ， 它 类 似 于 ORDER BY ， 因 为 它 人 允许 翻转 。 


3.8.5 反 范 式 化 


在 关系 型 数据 库 设 计 中 ， 我 们 经 常 强 调 范式 化 的 重要 性 。 但 是 
当 使 用 Cassandra 时 ， 这 就 不 是 一 个 优点 了 ， 因 为 只 有 当 数 据 模 
型 是 反 范 式 化 的 时 候 ， 它 的 性 能 才 是 最 好 的 。 实 际 上 ， 很 多 公 
司 最 终 都 会 将 关系 型 数据 库 反 范式 化 ， 这 主要 有 两 个 原因 。 其 
一 是 性 能 原因 ， 当 他 们 在 其 多 年 积累 的 海量 有 价值 的 数据 上 进 
行 大量 的 join 操 作 的 时 候 ， 无 法 得 到 所 需 的 性 能 ， 于 是 就 按照 
己 知 的 查询 内 容 来 反 范 式 化 数据 库 以 优化 查询 。 这 种 方法 最 终 
可 以 工作 ， 但 和 关系 型 数据 库 的 设计 初 囊 相 昼 ， 最 终 引 发 的 问 
题 束 是 ， 在 这 种 条 件 下 ， 使 用 关系 型 数据 库 是 否 还 是 最 佳 手 


Et. 


关系 型 数据 库 进 行 反 范式 化 的 第 二 个 原因 是 业务 文档 结构 有 时 
需要 留存 。 也 束 是 说 ， 你 有 一 个 外 围 表 ， 引 用 了 很 多 的 外 部 

表 ， 表 的 数据 可 能 会 随时 间 肥 生变 化 ， 但 你 也 需要 以 快照 形式 
保存 外 围 文档 的 历史 。 和 常见 的 一 个 例子 是 收 球 信息 。 你 已 经 有 
客户 和 产品 表 了 ， 而 且 认 为 可 以 在 收 秋 信息 里 引用 这 些 表 。 但 
古 实 际 不 应 该 这 么 做 ， 因 为 客户 和 价格 信息 都 可 能 发 生变 化 ， 

那 时 你 就 会 竺 失 收 球 信 息 的 完整 性 了 ， 因 为 这 些 表 的 变动 似乎 
在 收 区 时 也 发 生 了 ， 这 可 能 会 影响 到 审计 、 报 告 ， 甚 至 是 违法 
的 ， 还 可 能 引发 其 他 问题 。 




































































在 关系 型 数据 库 里 ， 反 范式 化 会 破坏 Codd 的 范式 ， 我 们 需要 
尽力 避免 。 但 在 Cassandra 中 ， 反 范式 化 却 正好 合乎 规则 。 它 在 
数据 模型 很 简单 时 并 不 必要 ， 但 也 不 需要 害怕 它 。 


重点 在 于 ， 首 先 对 数据 建 模 、 然 后 再 写 查询 的 方法 不 再 适用 
了 。Cassandra 中 ， 应 该 先 定义 好 查询 ， 并 围绕 查询 来 组 织 数 
据 。 考 虑 一 下 应 用 使 用 的 最 基本 的 查询 路 径 ， 之 后 根据 查询 路 
径 来 构建 所 需要 的 列 族 就 可 以 了 。 


批评 者 们 认为 这 是 个 非常 严重 的 问题 。 不 过 在 设计 数据 库 的 时 
候 能 够 考虑 应 用 如 何 碍 询 也 并 非 没 有 道理 ， 实 际 上 ， 一 般 在 关 
系 型 数据 库 里 也 是 这 么 做 的 。 如 果 不 能 正确 预期 查询 方式 ， 那 
么 不 论 是 在 Cassandra 里 还 是 在 关系 型 数据 库 里 ， 都 会 遇 到 问 
题 。 当 然 ， 碍 询 方式 可 能 会 随 痢 时 间 推 移 而 改变 ， 那 么 就 不 得 
不 更 新 数据 了 。 不 过 这 和 在 关系 型 数据 库 里 定义 表 时 犯错 或 需 
要 新 的 附加 表 也 没什么 区 别 。 









































“公有 一 篇 关于 Cloudkick 如 何 使 用 Cassandra 存 储 性 能 监控 
旨 标 数据 的 文章 ， 可 以 在 这 里 阅 
iE: https;//www.cloudkick.com/blog/2010/mar/02/4 months wi 


3.9 ”设计 模式 


有 一 些 人 们 通常 使 用 Cassandra 的 方法 ， 可 以 归纳 为 设计 模式 。 
我 给 这 些 模 式 命 名 为 : 具体 化 视图 、 无 值 列 和 聚 合 键 。 


3.9.1 具体 化 视图 


创建 一 个 第 二 索引 来 对 应 附加 查询 的 方法 非常 第 见 。 因 为 没有 
SQL 的 WHERE 子 句 ， 束 只 能 通过 将 数据 写 到 对 应 于 应 用 查询 方 
式 的 第 二 列 族 的 方法 来 达到 这 一 效果 。 


比如 有 一 个 User 列 族 ， 现 在 你 希望 通过 所 在 城市 来 搜索 用 

户 ， 那 么 就 可 以 创建 一 个 称 为 UserCity 的 第 二 列 族 ， 以 城市 

为 键 值 〈 而 非 以 用 户 为 键 值 ) 存放 用 户 数据 ， 它 的 列 以 居住 在 
这 个 城市 的 用 户 的 名 字 来 命名 。 这 个 反 范 式 化 技术 将 会 加 快 查 
询 ， 这 就 是 一 个 围绕 查询 方式 设计 数据 模型 的 例子 (而 非 反 问 
进行 ) 。 这 种 使 用 方式 在 Cassandra 中 非常 常见 。 当 希望 通过 城 
市 查询 用 户 的 时 候 ， 只 要 查询 UserCity 列 族 就 可 以 了 ， 而 不 

用 去 查询 User 列 族 ， 然 后 跨 过 一 个 可 能 很 大 的 数据 集 ， 在 客 

户 端 上 做 很 多 琐碎 的 工作 。 


注意 ， 在 这 个 语 境 里 ， 具 体 化 是 指 在 第 二 列 族 里 存放 所 有 应 答 
查询 时 需要 的 原始 列 族 数据 的 一 份 完整 副本 ， 这 样 就 无 需 访 问 
原始 列 族 了 。 如 果 因 为 在 第 二 列 族 里 只 存放 了 所 需要 的 名 字 还 
要 进行 第 二 次 查询 ， 相 当 于 第 二 列 族 里 只 存放 外 部 键 值 ， 那 就 
是 一 个 第 二 索引 了 。 










































































“和 仅 在 0.7 版 本 里 ，Cassandra 原 生 支持 了 第 二 索引 。 


3.9.2 无 值 列 


现在 ， 我 们 在 User/UserCity 例子 上 继续 前 进 。 因 为 在 User 
列 族 中 存放 了 引用 信息 ， 这 就 出 现 两 个 问题 ， 首 先 ， 需 要 唯一 
且 完 备 的 键 值 ， 以 此 来 达到 引用 一 致 性 ， 其 次 ，UserCity 列 
族 中 的 列 实际 不 需要 值 。 如 果 你 有 一 个 行 键 值 Boise， 那 么 列 

的 名 字 可 以 是 这 个 城市 里 的 所 有 用 户 名 字 。 因 为 引用 的 数据 来 
自 于 User 列 族 ， 所 以 这 些 列 自己 就 不 需要 存储 什么 值 了 ， 你 

只 把 它 用 做 一 个 列表 ， 至 于 列表 中 其 他 相关 的 附加 信息 ， 都 可 
以 从 被 引用 的 列 族 中 获取 。 




















3.9.3 REGE 





当 使 用 无 值 列 模式 时 ， 可 能 还 希望 同时 使 用 聚合 键 模 式 。 这 个 
模式 把 两 个 标量 值 以 一 个 分 隔 符 连 在 一 起 来 创建 一 个 聚合 。 现 
在 继续 扩展 我 们 的 例子 。 城 市 的 名 字 常 党 不 具有 唯一 性 ， 美 国 
的 很 多 州都 有 叫 Springfield 的 城市 ， 得 区 了 萨 斯 州 和 田纳西 州 也 
都 有 叫 巴 黎 的 城市 。 所 以 ， 如 果 把 州 的 名 字 和 城市 的 名 字 融 合 
到 一 起 创建 一 个 聚合 键 就 好 多 了 ， 可 以 用 在 有 具体 化 视图 之 中 。 
这 些 键 值 可 能 会 像 : TX:Paris 和 TN:Paris 这 样 。 在 传统 

上 ， 很 多 Cassandra 用 户 都 使 用 冒号 作为 分 隅 符 ， 不 过 使 用 管道 
符 或 是 其 他 的 没有 歧义 的 字符 都 可 以 。 




















3.10 ”需要 记 住 的 几 件 事 


竺 尝试 从 关系 型 的 思维 模式 疝 Cassandra 的 数据 模型 转变 的 时 

候 ， 有 几 件 需要 铭记 在 心 的 事情 。 我 不 得 不 说 : 如 果 你 曾经 长 
期 使 用 关系 型 数据 库 ， 那 么 这 个 转变 并 不 容易 。 这 里 有 两 点 所 
示 。 


。 从 查询 开始 。 首 先 要 问 应 用 需要 什么 ， 围 绕 应 用 的 需要 进 
行 建 模 ， 而 非 像 过 去 在 关系 型 世界 里 一 样 ， 对 数据 本 和 号 进 
行 建 模 。 有 些 聪 明 人 告诉 我 ， 随 着 业务 发 展 ， 有 新 查询 的 
时 候 ， 这 种 方法 会 让 Cassandra 用 户 们 遇 到 极 大 的 麻烦 。 有 
道理 ， 但 对 此 我 要 反问 一 句 ， 为 什么 要 如 此 死板 地 定义 数 
据 类 型 ， 他 们 的 查询 并 没有 这 么 严格 的 要 求 啊 。 


你 必须 为 每 个 查询 提供 一 个 时 间 惟 《或 时 钟 ) ， 需 要 一 个 
策略 来 同步 多 个 客户 端 。Cassandra 会 使 用 时 间 惟 来 判断 哪 
个 是 最 新 写 入 的 值 ， 这 非常 重要 。 一 个 好 的 策略 是 使 用 网 
络 时 间 协 议 CNTP) 服务 器 。 这 里 ， 也 有 一 些 聪明 人 问 
我 ， 为 什么 不 让 服务 器 自己 管理 时 钟 ? 我 的 回答 是 ， 这 是 
一 个 对 称 分 布 式 数据 库 ， 服 务 端 实际 有 同样 的 问题 。 


























3.11 小 结 


本 章 ， 我 们 循序 渐进 地 讲解 了 Cassandra 的 数据 模型 ， 包 括 
keyspace、 列 族 、 列 以 及 超级 列 等 概念 。 我 们 还 了 解 了 一 些 
RDBMS 与 Cassandra 的 不 同 之 处 。 


HAE ”应 用 实例 


本 章 我 们 来 创建 一 个 完整 的 实例 ， 这 样 就 可 以 看 到 如 何 把 所 有 
东西 放 在 一 起 。 我 们 将 使 用 各 个 API 来 看 看 如 何 插入 数据 ， 进 
行 批量 更 新 ， 并 在 列 族 和 超级 列 族 中 搜索 。 


在 这 个 例子 中 ， 我 们 希望 使 用 足够 复杂 的 东西 ， 来 展示 不 同 的 
数据 结构 和 基本 的 API 操 作 ， 但 又 不 太 过 复杂 让 你 陷于 细 枝 末 
节 。 为 了 从 数据 库 里 得 到 足够 的 数据 来 让 搜索 正常 工作 《通过 
找到 所 需要 的 内 容 、 过 小 不 需要 的 内 容 ) ， 预 装 入 数据 库 的 内 
容 里 会 有 一 些 见 余 。 同 时 ， 我 布 望 例 子 建 立 在 一 个 大 家 都 熟悉 
的 领域 ， 这 样 大 家 能 够 聚焦 在 如 何 使 用 Cassandra 工 作 上 ， 而 不 
是 琢磨 这 个 应 用 是 怎么 回 事 。 




















Sde 本 章 中 的 代码 在 0.7 beta 1 版 本 中 测试 通过 。 当 读者 使 
用 其 他 版 本 时 ， 可 能 会 由 于 API 的 变动 ， 需 要 部 分 的 调整 。 


41 数据 模型 设计 


开始 构建 一 个 使 用 关系 型 数据 库 的 数据 驱动 新 应 用 时 ， 你 可 能 
会 首先 对 应 用 领域 进行 建 模 ， 构 造 一 系列 属性 正 交 的 表 ， 并 用 
外 部 键 引用 其 他 表 里 的 相关 数据 。 现 在 ， 我 们 已 经 明白 
Cassandra 是 如 何 存 储 数据 的 了 ， 那 么 就 从 一 个 在 关系 模型 里 很 
好 理解 的 小 的 领域 模型 开始 ， 然 后 将 它 从 关系 模型 映射 到 
Cassandra 的 分 布 式 哈 希 模型 。 


简单 地 说 ， 关 系 型 建 模 就 是 从 一 个 概念 域 开始 ， 然 后 在 表 中 表 
达 出 该 域 中 的 名 词 。 然 后 分 配 主键 和 外 部 键 来 对 关系 进行 建 
模 。 当 过 到 多 对 多 的 关系 时 ， 束 需要 创建 联合 表 来 表达 这 些 键 
值 。 联 合 表 在 真实 世界 中 并 不 存在 ， 它 们 是 在 关系 模型 工作 时 
无 法 避免 的 副作用 。 当 所 有 的 表 部 排 布 好 之 后 ， 束 可 以 开始 写 
查询 了， 通过 键 值 定义 的 关系 将 分 散 的 数据 聚 扰 到 一 起 。 在 关 
系 型 世界 之 中 ， 碍 询 是 非常 次 要 的 东西 。 头 系 模 型 假设 ， 只 要 
正确 地 建立 了 表 ， 总 能 获取 到 所 需要 的 数据 ， 即 使 这 是 以 使 用 
很 多 复杂 的 子 查 询 或 是 join 语句 为 代价 的 。 


相反 ，Cassandra 中 ， 不 是 从 数据 模型 开始 的 ， 而 要 从 查询 模型 
开始 。 


在 这 个 例子 里 ， 我 们 使 用 一 个 易于 理解 、 和 每 个 人 都 有 关 的 领 
域 一 一 允许 客人 进行 预定 的 酒店 。 


我 们 的 概念 域 包括 酒店 、 入 住 的 客人 、 每 个 酒店 房间 的 集合 以 
及 预定 房间 的 记录 ， 也 就 是 东 个 客人 在 茶 个 房间 不 的 一 段 时 间 
〈《 称 为 俘 留 时 间 ) 。 酒 店 一 般 都 会 保留 一 个 兴趣 点 的 集合 ， 包 
括 公 园 、 博 物 馆 、 购 物 场所 、 上 古迹 或 者 位 于 宾馆 附近 的 某 些 地 
方 ， 游 客 可 能 会 在 集 留 期 间 前 去 休闲 。 丑 馆 和 兴趣 点 部 坝 要 维 
护 地 理 信息 ， 这 样 可 以 在 地 图 上 查找 ， 或 是 计算 距离 。 





















































~- 汉 显 然 ， 在 真实 世界 里 要 考虑 的 事情 多 得 多 ， 也 复杂 得 
多 。 比 如 ， 酒 店 的 房 费 总 是 在 不 断 变 化 的 ， 计 算 房 费 也 要 考 
虑 各 种 不 同 费用 情况 。 这 里 ， 我 们 的 定义 会 足够 复杂 ， 让 例 
子 足 够 有 趣 ， 也 能 触及 到 关键 点 上 ， 不 过 也 要 保持 简单 ， 将 
精力 集中 在 学 习 Cassandra 上 。 


现在 来 看 看 如 何 设计 使 用 Cassandra 的 应 用 。 首 先 要 确定 查询 。 
我 们 希望 做 如 下 这 些 事情 : 


e 在 指定 区 域 查找 酒店 ; 

。 碍 询 指定 酒店 的 信息 ， 如 名 称 和 位 置 ， 
e. 和 奋 找 指定 酒店 附近 的 兴趣 点 ; 

。 得 询 指定 时 间 范 围 的 可 用 房间 ; 

。 租 找 房间 的 房 费 和 生活 设施 ; 

。 通 过 输入 客户 信息 来 预定 选 定 的 房间 。 



































4.2 酒店 应 用 的 关系 型 数据 库 设计 


如 图 4-1 所 示 ， 我 们 可 以 用 一 个 关系 型 数据 库 模 型 来 构建 这 个 
简单 的 酒店 预定 系统 。 这 个 关系 型 模型 包含 两 张 联合 表 ， 以 解 
决 酒店 到 兴趣 点 和 房间 到 生活 设施 之 间 的 多 对 多 关系 。 











Reservation 
一 Guest 


RoomlD GuestlD GuestlD 
HotellD. RoomlD 
Name 


RoomNumber StartDate Email 
Rate EndDate 





Amenity 














PointOflnterest HotelToPOI RoomloAmenity 
POIID HotellD RoomlD AmenitylD 
Name POIID AmenitylD Name 
Description 


图 4-1: 基于 RDBMS 的 简单 酒店 搜索 系统 


4.3 ”酒店 应 用 的 Cassandra 设 计 


实现 这 个 应 用 的 方法 可 能 不 止 一 种 ， 图 4-2 中 ， 我 们 给 出 的 是 
一 种 使 用 Cassandra 物 理 模 型 的 逻辑 数据 模型 。 


«C Hotel 


<<RowKey>>#hotellD 


<(F>HotelByCity <<SCF>œPointOfinterest 


<<SuperColumnName>>#hotellD 
<<RowKey>> #poiName 







<<RowKey>>#city:state:hotellD 
+hotell 
+hotel2 


+ 


+desc 
+Phone 








«SCFz» Room/vailablity ««SCFZ» Room 


««SuperColumnName-» £hotellD | | «SuperColumnNamez» £hotellD 
<<RowKey>> --date <<RowKey>> sroomlD 

+kk : «unspecified» = 22 

+qq : <unspecified> = 14 


«(CF»»Guest 


««RowKeyz» phone 
+fname 





图 4-2: 使 用 Cassandra 模 型 的 酒店 搜索 


在 Cassandra 里 ， 我 们 将 完成 和 之 前 的 关系 型 模型 设计 中 完全 相 
同 的 功能 。 我 们 直接 把 Hotel 、Guest 这 几 张 表 转 成 列 族 。 其 
他 的 表 ， 如 PointofInterest ， 反 范式 化 为 一 个 超级 列 族 。 
在 关系 型 模型 里 ， 你 可 以 用 SQL 通过 所 在 的 城市 来 进行 查找 。 
因为 Cassandra 里 没有 SQL， 我 们 需要 创建 HotelByCity 列 族 
来 作为 索引 。 











< 公 这 里 ， 我 使 用 了 书 名 号 来 标记 类 型 ，<<CF>> 表示 列 
族 ，<<SCF>> 表示 超级 列 族 。 


我 们 把 房间 和 设施 都 放 到 了 Room 列 族 之 中 ， 类 型 (type) 和 
房 费 Crate) 列 分 别 存储 相应 的 内 容 ， 其 他 如 热 水 浴缸 Chot 
tub) 等 ， 如 果 有 相应 列 名 就 表示 存在 相应 的 设施 ， 人 否则 这 列 
就 是 空 的 。 











4.4 酒店 应 用 代码 


在 本 节 ， 我 们 会 从 头 到 尾 展示 一 过 代码 ， 来 介绍 如 何 实现 上 述 
设计 。 这 可 以 将 很 多 不 同 的 API 功 能 的 用 法 展示 出 来 。 














TS 这 个 示例 应 用 的 目的 就 在 于 展示 Cassandra 之 中 可 以 用 
上 的 不 同 思 路 。 这 并 不 是 从 关系 型 设计 迁移 到 Cassandra 模 型 
上 的 唯一 方法 。 有 很 多 底层 的 工作 是 使 用 Thrift API 进 行 的 。 
但 Cassandra (可 能 ) 正 从 Thrift 向 Avro 进行 迁移 ， 所 以 尽管 
基本 思路 没 问 题 ， 但 在 实际 应 用 中 可 能 并 不 能 按照 这 个 例子 
这 么 做 。 在 第 8 章 中 ， 我 们 介绍 了 很 多 可 用 的 第 三 方 
Cassandra 客 户 端 ， 可 以 依照 你 自己 的 应 用 开发 语言 和 其 他 需 
要 ， 来 选择 合适 的 客户 端 。 


创建 应 用 可 以 分 为 这 么 几 步 。 
1. 构建 数据 库 的 结构 。 


2. 在 数据 库 中 装载 酒店 和 兴趣 点 的 数据 。 酒 店 的 数据 存储 在 
标准 的 列 族 中 ， 兴 趣 点 的 数据 则 存储 在 超级 列 族 中 。 

3. 给 定 城市 ， 搜 索 一 组 酒店 的 列表 。 这 会 使 用 第 二 索引 。 

4. 选择 搜索 结果 中 的 一 个 酒店 ， 搜 索 酒 店 附近 的 兴趣 点 。 

5. 接 下 来 ， 通 过 在 Reservation 列 族 插入 数据 来 预定 酒店 房 
则 的 工作 应 该 是 水 到 汇 成 了 ， 留 给 读者 来 完成 。 

从 篇 幅 上 ， 我 们 无 法 实现 一 个 完整 的 应 用 ， 但 我 们 将 会 完整 介 

绍 主要 的 部 分 ， 完 成 全 部 实现 的 工作 就 是 写 一 些 类 似 的 代码 而 

Is 
































4.4.1 创建 数据 库 


第 一 步 是 定义 schema。 本 例 中 ， 我 们 将 使 用 YAML 来 定义 
schema， 并 载 入 定义 ， 当 然 也 可 以 使 用 客户 端 代 码 来 进行 定 
o 


YAML 文 件 定 义 了 主要 的 keyspace 和 列 族 ， 如 例 4-1 所 示 。 


例 4-1: cassandra.yaml 中 的 Schema 和 定义 
keyspaces: 


- name: Hotelier 
replica placement strategy: org.apache.cassandra.locator.R 
UnawareStrategy replication factor: 1 
column families: 
- name: Hotel 
compare with: UTF8Type 


name: HotelByCity 
compare with: UTF8Type 


name: Guest 
compare with: BytesType 


name: Reservation 


compare with: TimeUUIDType 


name: PointOfInterest 

column type: Super 

compare with: UTF8Type 

compare subcolumns with: UTF8Type 


name: Room 

column type: Super 

compare with: BytesType 

compare subcolumns with: BytesType 


name: RoomAvailability 
column type: Super 
compare with: BytesType 





compare subcolumns with: BytesType 


这 个 定义 给 出 了 运行 这 个 例子 所 需 的 所 有 列 族 ， 而 且 其 中 有 一 
些 我 们 在 应 用 代码 中 并 未 用 到 ， 因 为 这 些 是 用 来 完成 RDBMS 
设计 一 样 的 功能 的 。 


加 载 schema 


在 YAML 里 定义 好 schema 之 后 ， 需 要 将 它们 装载 到 Cassandra 
中 。 要 进行 装载 ， 首 先 打 开 一 个 控制 台 ， 运 行 JDK 提 供 的 
jconsole 工 具 ， 使 用 JMX 连 接 到 Cassandra。 之 后 执 

行 1oadschemaFromYAML 操作 ， 这 

是 org.apache.cassandra.service.StorageService 
MBean 的 一 部 分 。 现 在 Cassandra 已 经 知道 shema 了 ， 就 可 以 开 
始 使 用 Cassandra 了 。 你 也 可 以 直接 使 用 API 来 创建 keyspace 和 
列 族 。 


4.4.2 ”数据 结构 


我 们 的 应 用 需要 一 些 标准 的 数据 结构 来 做 为 转换 对 象 。 这 些 并 
不 是 非常 有 趣 ， 但 确 是 保持 条 理性 所 需要 的 。 我 们 将 使 用 一 
个 Hotel 数据 结构 来 保存 所 有 有 关 酒 店 的 信息 ， 如 例 4-2 所 
ZN o 














例 4-2: Hotel.java 





package com.cassandraguide.hotel; 


// 数 据 传输 对 象 

public class Hotel ( 
public String id; 
public String name; 
public String phone; 
public String address; 
public String city; 


public String state; 
public String zip; 














这 个 结构 就 是 用 来 保存 相应 的 列 信息 ， 以 方便 应 用 使 用 。 


我 们 还 有 一 个 POI 数据 结构 ， 用 于 保存 兴趣 点 的 信息 ， 如 例 4- 
3 所 示 。 





例 4-3: POLjava 
package com.cassandraguide.hotel; 


/兴趣 点 的 数据 传输 用 对 象 

public class POI ( 
public String name; 
public String desc; 
public String phone; 





还 有 一 个 Constants 类 ， 把 常用 的 字符 串 放 在 一 起 ， 易 于 修 
改 ， 如 例 4-4 所 示 。 


例 4-4: Constants.java 





package com.cassandraguide.hotel; 


import org.apache.cassandra.thrift.ConsistencyLevel; 
public class Constants { 


public static final String CAMBRIA NAME - "Cambria Suites Ha 
public static final String CLARION NAME- "Clarion Scottsdale 
public static final String W NAME - "The W SF"; 

public static final String WALDORF NAME - "The Waldorf-Astor 


public static final String UTF8 = "UTF8'; 

public static final String KEYSPACE - "Hotelier"; 

public static final ConsistencyLevel CL = ConsistencyLevel.O 
public static final String HOST - "localhost"; 


public static final int PORT = 9160; 


把 常用 的 字符 捉 保 存在 一 起 会 让 代码 更 加 干净 整洁 ， 而 且 你 也 
可 以 方便 地 修改 这 些 字符 串 ， 来 适应 应 用 环境 ， 


4.4.3 ”进行 连接 


为 了 方便 ， 也 为 了 省 去 大 量 看 枯燥 无 味 的 代码 的 时 间 ， 我 们 把 
连接 管理 的 代码 放 到 一 个 类 里 面 ， 叫 做 Connector ， 如 例 4-5 
所 示 。 


例 4-5: ”一 个 客户 端 连 接 辅 助 类 ，Connector.java 


package com.cassandraguide.hotel; 
import static com.cassandraguide.hotel.Constants.KEYSPACE; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.InvalidRequestException; 
import org.apache.thrift.TException; 

import org.apache.thrift.protocol.TBinaryProtocol; 

import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 

import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 

import org.apache.thrift.transport.TTransportException; 


// 简 单 的 辅助 类 ， 用 于 封装 连接 代码 ， 减 少 重复 输入 


public class Connector ( 





TTransport tr - new TSocket("localhost", 9160); 





// 返回 一 个 到 keyspace 的 新 连接 
public Cassandra.Client connect() throws TTransportException 
TException, InvalidRequestException { 


TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 





tr.open(); 
client.set keyspace(KEYSPACE); 
return client; 


j 


public void close() { 
tr.close(); 


j 








当 需 要 执行 数据 库 操 作 时 ， 可 以 使 用 这 个 类 来 打开 一 个 连接 ， 
当 操作 完成 时 也 可 以 使 用 这 个 类 来 天 闭 连接 。 


4.4.4” 预 装填 数据 库 


例 4-6 所 示 的 Prepopulate 类 ， 进 行 大 批量 的 insert 和 
batch mutate 操作 ， 将 供用 户 查 询 的 酒店 和 兴趣 点 的 信息 预 
装 入 到 数据 库 当 中 。 


例 4-6: Prepopulate.java 











package com.cassandraguide.hotel; 


import static com.cassandraguide.hotel.Constants.CAMBRIA NAME; 
import static com.cassandraguide.hotel.Constants.CL; 

import static com.cassandraguide.hotel.Constants.CLARION NAME; 
import static com.cassandraguide.hotel.Constants.UTF8; 

import static com.cassandraguide.hotel.Constants.WALDORF NAME; 
import static com.cassandraguide.hotel.Constants.W NAME; 


import java.io.UnsupportedEncodingException; 
import java.util.ArrayList; 

import java.util.HashMap; 

import java.util.List; 

import java.util.Map; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.Clock; 

import org.apache.cassandra.thrift.Column; 

import org.apache.cassandra.thrift.ColumnOrSuperColumn; 


import org.apache.cassandra.thrift.ColumnParent; 
import org.apache.cassandra.thrift.ColumnPath; 
import org.apache.cassandra.thrift.Mutation; 
import org.apache.cassandra.thrift.SuperColumn; 
import org.apache.log4j.Logger; 


J^ 
* 装载 数据 库 的 初始 信息 
* 装填 列 族 和 超级 列 族 ， 包 括 酒店 、 兴 趣 点 和 索引 数据 
* 展示 如 何 使 用 列 族 和 超级 列 族 的 batch_mutate 和 insert 操 作 
* 为 节省 空间 ， 省 略 了 代码 中 的 所 有 异常 相关 操作 
T 
public class Prepopulate ( 
private static final Logger LOG - Logger.getLogger(Prepopula 
class); 








private Cassandra.Client client; 
private Connector connector; 
// 在 构造 器 中 打开 连接 ， 这 样 就 不 必 重 复 打 开 连 接 了 
public Prepopulate() throws Exception { 
connector - new Connector(); 
client - connector.connect(); 














j 


void prepopulate() throws Exception ( 
// 预 装载 酒店 数据 库 
insertAllHotels(); 





// 添 加 酒店 的 索引 ， 方 便 查 询 
insertByCityIndexes(); 


// 预 装载 兴趣 点 数据 库 
insertAllPointsOfInterest(); 


connector.close(); 


j 


// 添 加 通过 城市 查找 酒店 的 索引 
public void insertByCityIndexes() throws Exception { 





String scottsdaleKey - "Scottsdale:AZ"; 
String sfKey - "San Francisco:CA"; 
String newYorkKey = "New York:NY"; 


insertByCityIndex(scottsdaleKey, CAMBRIA NAME); 
insertByCityIndex(scottsdaleKey, CLARION NAME); 
insertByCityIndex(sfKey, W NAME); 
insertByCityIndex(newYorkKey, WALDORF NAME); 


j 
// 使 用 无 值 列 模式 


private void insertByCityIndex(String rowKey, String hotelNa 
throws Exception ( 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column(hotelName.getBytes(UTF8), 
new byte[0], clock); 


ColumnOrSuperColumn nameCosc = new ColumnOrSuperColumn() 
nameCosc.column - nameCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 


//ix &batch 
Map&ltString, Map&ltString, List&ltMutation»»» mutationM 
new HashMap&ltString, Map&ltString, List&ltMutation 


Map&ltString, List&ltMutation»» muts - 

new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cols = new ArrayList&ltMutation-»(); 
cols.add(nameMut); 


String columnFamily = "HotelByCity"; 
muts.put(columnFamily, cols); 





// 外 层 映 射 的 键 值 是 行 键 值 
// 内 层 映 射 的 键 值 是 列 族 名 


mutationMap.put(rowKey, muts); 














// 创 建 列 的 描述 
ColumnPath cp = new ColumnPath(columnFamily); 
cp.setColumn(hotelName.getBytes(UTF8)); 











ColumnParent parent - new ColumnParent(columnFamily); 

// 这 里 ， 列 名 就 是 它 的 内 容 本 身 《〈 所 以 值 是 空 的 ) 

Column col = new Column(hotelName.getBytes(UTF8), new by 
clock); 





client.insert(rowKey.getBytes(), parent, col, CL); 


LOG.debug("Inserted HotelByCity index for " + hotelName) 








) // 插 入 ByCity 索 引 结束 


/ /POI :兴趣 点 
public void insertAllPointsOfInterest() throws Exception ( 


j 


LOG.debug("Inserting POIs."); 


insertPOIEmpireState(); 
insertPOICentralPark(); 
insertPOIPhoenixZoo(); 
insertPOISpringTraining(); 


LOG.debug("Done inserting POIs."); 


private void insertPOISpringTraining() throws Exception { 


//Map&ltbyte[],Map&ltString, List&ltMutation»»» 

Map&ltbyte[], Map&ltString, List&ltMutation»»» outerMap 
new HashMap&ltbyte[], Map&ltString, List&ltMutation» 

List&ltMutation» columnsToAdd - new ArrayList&ltMutation 


Clock clock - new Clock(System.nanoTime()); 
String keyName - "Spring Training"; 
Column descCol = new Column("desc".getBytes(UTF8), 
"Fun for baseball fans.".getBytes("UTF-8"), clock); 
Column phoneCol = new Column("phone".getBytes(UTF8), 
"623-333-3333" .getBytes(UTF8), clock); 


List&ltColumn» cols = new ArrayList&ltColumn»(); 
cols.add(descCol); 
cols.add(phoneCol); 


Map&ltString, List&ltMutation»» innerMap - 
new HashMap&ltString, List&ltMutation»»(); 
Mutation columns - new Mutation(); 
ColumnOrSuperColumn descCosc = new ColumnOrSuperColumn() 
SuperColumn sc - new SuperColumn(); 
sc.name = CAMBRIA NAME.getBytes(); 
Sc.columns - cols; 


j 


descCosc.super column - sc; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(columns); 

String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family = superCFName; 

cp.setSuper column(CAMBRIA NAME.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Spring Training."); 


private void insertPOIPhoenixZoo() throws Exception ( 


Map&ltbyte[], Map&ltString, List&ltMutation»»» outerMap 
new HashMap&ltbyte[], Map&ltString, List&ltMutation» 
List&ltMutation» columnsToAdd - new ArrayList&ltMutation 


long ts - System.currentTimeMillis(); 
String keyName = "Phoenix Zoo"; 
Column descCol = new Column("desc'".getBytes(UTF8), 
"They have animals here.".getBytes("UTF-8"), new Clo 


Column phoneCol = new Column("phone".getBytes(UTF8), 
"480-555-9999" .getBytes(UTF8), new Clock(ts)); 


List&ltColumn» cols = new ArrayList&ltColumn»(); 
cols.add(descCol); 
cols.add(phoneCol); 


Map&ltString, List&ltMutation»» innerMap - 
new HashMap&ltString, List&ltMutation»»(); 


String cambriaName - "Cambria Suites Hayden"; 
Mutation columns - new Mutation(); 


ColumnOrSuperColumn descCosc = new ColumnOrSuperColumn() 
SuperColumn sc - new SuperColumn(); 


j 


sc.name = cambriaName.getBytes(); 
Sc.columns - cols; 


descCosc.super column - sc; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(colum 

String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family = superCFName; 

cp.setSuper column(cambriaName.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Phoenix Zoo."); 


private void insertPOICentralPark() throws Exception ( 


Map&ltbyte[], Map&ltString, List&ltMutation»»» outerMap 
new HashMap&ltbyte[], Map&ltString, List&ltMutation» 
List&ltMutation» columnsToAdd - new ArrayList&ltMutation 


Clock clock - new Clock(System.nanoTime()); 

String keyName - "Central Park"; 

Column descCol = new Column("desc".getBytes(UTF8), 
"Walk around in the park. It's pretty.".getBytes("U 
clock); 


// 公 园 没 有 电话 列 
List&ltColumn» cols = new ArrayList&ltColumn»(); 
cols.add(descCol); 





Map&ltString, List&ltMutation»» innerMap - 
new HashMap&ltString, List&ltMutation»»(); 


Mutation columns - new Mutation(); 

ColumnOrSuperColumn descCosc = new ColumnOrSuperColumn() 
SuperColumn waldorfSC - new SuperColumn(); 
waldorfSC.name - WALDORF NAME.getBytes(); 


waldorfSC.columns = cols; 


descCosc.super column = waldorfSC; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(columns); 

String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family = superCFName; 

cp.setSuper column(WALDORF NAME.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Central Park."); 


private void insertPOIEmpireState() throws Exception { 


Map&ltbyte[], Map&ltString, List&ltMutation»»» outerMap 
new HashMap&ltbyte[], Map&ltString, List»»(); 


List&ltMutation» columnsToAdd - new ArrayList&ltMutation 


Clock clock - new Clock(System.nanoTime()); 

String esbName - "Empire State Building"; 

Column descCol = new Column("desc".getBytes(UTF8), 
"Great view from 102nd floor.".getBytes("UTF-8"), 
clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"212-777-TT71".getBytes(UTF8), clock); 


List&ltColumn» esbCols = new ArrayList&ltColumn»?(); 
esbCols.add(descCol); 
esbCols.add(phoneCol); 


Map&ltString, List&ltMutation»» innerMap - new HashMap&l 
&ltMutation»»(); 


Mutation columns - new Mutation(); 
ColumnOrSuperColumn descCosc = new ColumnOrSuperColumn() 


SuperColumn waldorfSC = new SuperColumn(); 


waldorfSC.name - WALDORF NAME.getBytes(); 
waldorfSC.columns - esbCols; 


descCosc.super column = waldorfSC; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(columns); 


String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family - superCFName; 

cp.setSuper column(WALDORF NAME.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(esbName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Empire State."); 
} 


// 用 于 一 次 进行 所 有 插入 操作 的 辅助 方法 


public void insertAllHotels() throws Exception { 





H 











String columnFamily - "Hotel"; 
// 行 键 值 

String cambriaKey = "AZC 043"; 
String clarionKey - "AZS 011"; 


String wKey - "CAS 021"; 
String waldorfKey - "NYN 042"; 


// 辅 助 操作 


Map&ltbyte[], Map&ltString, List&ltMutation»»» cambriaMu 


createCambriaMutation(columnFamily, cambriaKey); 


Map&ltbyte[], Map&ltString, List&ltMutation»»» clarionMu 


createClarionMutation(columnFamily, clarionKey); 


Map&ltbyte[], Map&ltString, List&ltMutation»»» waldorfMu 


createwaldorfMutation(columnFamily, waldorfKey); 


Map&ltbyte[], Map&ltString, List&ltMutation»»» wMutation 
createwMutation(columnFamily, wKey); 


client.batch mutate(cambriaMutationMap, CL); 
LOG.debug("Inserted " + cambriaKey); 
client.batch mutate(clarionMutationMap, CL); 
LOG.debug("Inserted " + clarionKey); 
client.batch mutate(wMutationMap, CL); 
LOG.debug("Inserted " + wKey); 

client.batch mutate(waldorfMutationMap, CL); 
LOG.debug("Inserted " + waldorfKey); 


LOG.debug("Done inserting at " + System.nanoTime()); 


J 


// 设 置 要 插入 的 W 的 各 列 
private Map&ltbyte[], Map&ltString, List&ltMutation»»» creat 
String columnFamily, String rowKey) 
throws UnsupportedEncodingException ( 








Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column("name".getBytes(UTF8), 
W NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"415-222-2222".getBytes(UTF8), clock); 

Column addressCol - new Column("address".getBytes(UTF8), 
"181 3rd Street".getBytes(UTF8), clock); 

Column cityCol = new Column("city".getBytes(UTF8), 
"San Francisco".getBytes(UTF8), clock); 

Column stateCol = new Column("state".getBytes(UTF8), 
"CA".getBytes("UTF-8"), clock); 

Column zipCol = new Column("zip".getBytes(UTF8), 
"94103".getBytes(UTF8), clock); 


ColumnOrSuperColumn nameCosc = new ColumnOrSuperColumn() 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn( 
phoneCosc.column - phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColum 
addressCosc.column - addressCol; 


ColumnOrSuperColumn cityCosc = new ColumnOrSuperColumn() 


cityCosc.column = cityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn( 
stateCosc.column - stateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column - zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation(); 
stateMut.column 


or supercolumn = stateCosc; 


Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


//W batch 
Map&ltbyte[], Map&ltString, List&ltMutation»»» mutationM 
new HashMap&ltbyte[], Map&ltString, List&ltMutation 


Map&ltString, List&ltMutation»» muts - 
new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cols = new ArrayList&ltMutation»(); 
cols.add(nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 





// 外 层 映 射 是 行 键 值 

// 内 层 映 射 是 列 族 名 
mutationMap.put(rowKey.getBytes(), muts); 
return mutationMap; 





/7/ 添 加 Naldorf 酒 店 到 Hote1 列 族 

private Map&ltbyte[], Map&ltString, List&ltMutation»»» creat 
String columnFamily, String rowKey) 
throws UnsupportedEncodingException ( 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column("name".getBytes(UTF8), 
WALDORF NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"212-555-5555" ,getBytes(UTF8), clock); 

Column addressCol - new Column("address".getBytes(UTF8), 
"S01 Park Ave".getBytes(UTF8), clock); 

Column cityCol = new Column("city".getBytes(UTF8), 
"New York".getBytes(UTF8), clock); 

Column stateCol = new Column("state".getBytes(UTF8), 
"NY".getBytes("UTF-8"), clock); 

Column zipCol = new Column("zip".getBytes(UTF8), 
"10019".getBytes(UTF8), clock); 


ColumnOrSuperColumn nameCosc = new ColumnOrSuperColumn() 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn( 
phoneCosc.column - phoneCol; 


ColumnOrSuperColumn addressCosc = new ColumnOrSuperColum 
addressCosc.column - addressCol; 


ColumnOrSuperColumn cityCosc = new ColumnOrSuperColumn() 
cityCosc.column - cityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn( 
stateCosc.column - stateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column - zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 


cityMut.column or supercolumn = cityCosc; 
Mutation stateMut - new Mutation(); 
stateMut.column or supercolumn - stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


//W batch 
Map&ltbyte[], Map&ltString, List&ltMutation»»» mutationM 
new HashMap&ltbyte[], Map&ltString, List&ltMutation» 


Map&ltString, List&ltMutation»» muts - 
new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cols = new ArrayList&ltMutation»?(); 
cols.add(nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 





// 外 层 映 射 是 行 键 值 

// 内 层 映 射 是 列 族 名 
mutationMap.put(rowKey.getBytes(), muts); 
return mutationMap; 








// 设 置 Clarion 要 插入 的 各 列 
private Map&ltbyte[], Map&ltString, List&ltMutation>>> creat 


String columnFamily, String rowKey) 
throws UnsupportedEncodingException ( 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column("name".getBytes(UTF8), 
CLARION NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"480-333-3333" .getBytes(UTF8), clock); 

Column addressCol = new Column("address".getBytes(UTF8), 
"S000 N. Scottsdale Rd".getBytes(UTF8), clock); 

Column cityCol = new Column("city".getBytes(UTF8), 
"Scottsdale".getBytes(UTF8), clock); 

Column stateCol = new Column("state".getBytes(UTF8), 
"AZ".getBytes("UTF-8"), clock); 


Column zipCol = new Column("zip".getBytes(UTF8), 
"85255".getBytes(UTF8), clock); 


ColumnOrSuperColumn nameCosc = new ColumnOrSuperColumn() 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn( 
phoneCosc.column - phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColum 
addressCosc.column - addressCol; 


ColumnOrSuperColumn cityCosc = new ColumnOrSuperColumn() 
cityCosc.column - cityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn( 
stateCosc.column - stateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column - zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation(); 
stateMut.column or supercolumn - stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


//W batch 
Map&ltbyte[], Map&ltString, List&ltMutation»»» mutationM 
new HashMap&ltbyte[], Map&ltString, List&ltMutation» 


Map&ltString, List&ltMutation»» muts - 

new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cols = new ArrayList&ltMutation»?(); 
cols.add(nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 


j 


cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 





// 外 层 映 射 是 行 键 值 

// 内 层 映 射 是 列 族 名 
mutationMap.put(rowKey.getBytes(), muts); 
return mutationMap; 





// 设 置 要 插入 的 Cambria 的 各 列 
private Map&ltbyte[], Map&ltString, List&ltMutation»»» creat 


"state", 





String columnFamily, String cambriaKey) 
throws UnsupportedEncodingException ( 


// 设 置 Cambria 的 各 列 
Clock clock = new Clock(System.nanoTime()); 


Column cambriaNameCol = new Column("name".getBytes(UTF8) 
"Cambria Suites Hayden".getBytes("UTF-8"), clock); 

Column cambriaPhoneCol - new Column("phone".getBytes(UTF 
"480-444-4444" .getBytes(UTF8), clock); 

Column cambriaAddressCol = new Column("address".getBytes 
"400 N. Hayden".getBytes(UTF8), clock); 

Column cambriaCityCol = new Column("city".getBytes(UTF8) 
"Scottsdale".getBytes(UTF8), clock); 

Column cambriaStateCol - new Column( 


getBytes(UTF8), 
"AZ".getBytes("UTF-8"), clock); 

Column cambriaZipCol = new Column("zip".getBytes(UTF8), 
"85255".getBytes(UTF8), clock); 


ColumnOrSuperColumn nameCosc = new ColumnOrSuperColumn( ) 
nameCosc.column - cambriaNameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn( 
phoneCosc.column - cambriaPhoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColum 
addressCosc.column - cambriaAddressCol; 


ColumnOrSuperColumn cityCosc = new ColumnOrSuperColumn() 
cityCosc.column - cambriaCityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn( 
stateCosc.column - cambriaStateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column - cambriazipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation(); 
stateMut.column or supercolumn - stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


//W batch 
Map&ltbyte[], Map&ltString, List&ltMutation»»» cambriaMu 
new HashMap&ltbyte[], Map&ltString, List&ltMutation» 


Map&ltString, List&ltMutation»» cambriaMuts - 
new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cambriaCols = new ArrayList&ltMutation» 
cambriaCols.add(nameMut); 
cambriaCols.add(phoneMut); 
cambriaCols.add(addressMut); 
cambriaCols.add(cityMut); 
cambriaCols.add(stateMut); 
cambriaCols.add(zipMut); 


cambriaMuts.put(columnFamily, cambriaCols); 





// 外 层 映 射 是 行 键 值 

// 内 层 映 射 是 列 族 名 
cambriaMutationMap.put(cambriaKey.getBytes(), cambriaMut 
return cambriaMutationMap; 





这 个 例子 有 点 长 ， 给 出 了 比 “Hello，world” 更 多 的 信息 一 例子 中 包含 很 多 普通 列 族 和 


和 batch_mutate 
操作 。 其 中 ， 我 刻意 选择 了 多 行 不 同类 型 的 数据 ， 这 样 会 让 查询 也 复杂 一 

















这 个 应 用 会 首先 运行 这 个 类 ， 一 旦 预 法 载 方 法 执行 完成 ， 数 据 库 里 就 会 拥有 所 有 这 些 数 








4.4.5 搜索 应 用 














例 4-7 是 可 供 执行 的 带 有 main 
方法 的 Java 类 。 它 依赖 于 Log4J 来 输出 信息 ， 所 以 ， 在 运行 前 可 以 先 设 置 1o0g4j .pro 
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fija - 7: 
HotelApp.java 





package com.cassandraguide.hotel; 


import static com.cassandraguide.hotel.Constants.CL; 
import static com.cassandraguide.hotel.Constants.UTF8; 


import java.util.ArrayList; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.Column; 

import org.apache.cassandra.thrift.ColumnOrSuperColumn; 
import org.apache.cassandra.thrift.ColumnParent; 

import org.apache.cassandra.thrift.KeyRange; 

import org.apache.cassandra.thrift.KeySlice; 

import org.apache.cassandra.thrift.SlicePredicate; 
import org.apache.cassandra.thrift.SliceRange; 

import org.apache.cassandra.thrift.SuperColumn; 

import org.apache.1log4j.Logger; 


* 


/ 






































运行 酒店 应 用 。 在 数据 库 预 装载 后 ， 这 个 类 会 模拟 一 个 用 户 交 互 行为 ， 
搜索 一 个 城市 中 的 酒店 ， 选 择 其 中 一 个 ， 然 后 查看 酒店 周围 的 兴趣 点 。 











































































































这 个 类 中 会 展示 具体 化 视图 模式 、get、get_range_slice、key slices 














为 了 简化 代码 ，main 方 法 会 直接 抛 出 下 列 异 常 

UnsupportedEncodingException, 

InvalidRequestException, UnavailableException, TimedOutException, 
TException, NotFoundException, InterruptedException 
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对 于 一 些 常 用 字符 串 ， 使 用 了 Constants 类 。 








*/ 


public class HotelApp ( 
private static final Logger LOG - Logger.getLogger(HotelApp.class); 


public static void main(String[] args) throws Exception { 


// 先 把 所 有 数据 放 入 数据 库 
new Prepopulate().prepopulate(); 
LOG.debug("** Database filled. **"); 


























// 现 在 运行 客户 站 
LOG.debug("** Starting hotel reservation app. **"); 
HotelApp app - new HotelApp(); 



























































// 通 过 城市 来 查找 酒店 ， 尝 试 Scottsdale 或 是 纽约 

List&ltHotel» hotels = app.findHotelByCity("Scottsdale", "AZ"); 
//List&ltHotel» hotels - app.findHotelByCity("New York", "NY"); 
LOG.debug("Found hotels in city. Results: " + hotels.size()); 





// 选 择 一 个 
Hotel h = hotels.get(0); 


LOG.debug("You picked " + h.name); 





// 查 找 酒店 周边 的 兴趣 点 
LOG.debug("Finding Points of Interest near " + h.name); 
List&ltPOI» points = app.findPOIByHotel(h.name); 











// 选 择 一 个 兴趣 点 

POI poi = points.get(0); 

LOG.debug("Hm... " + poi.name + ". " + poi.desc + "--Sounds fun!"); 
LOG.debug("Now to book a room. .."); 


























// 显 示 有 空房 的 日 期 
// 留 为 练习 ,.. 
// 预 定 房间 
// 留 作 练习 ,，, ， 
LOG.debug("All done."); 











} 


// 使 用 列 分 片 来 读 取 超 级 列 
public List&ltPoI> findPOIByHotel(String hotel) throws Exception { 




















/// 查 询 

SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(hotel.getBytes()); 
sliceRange.setFinish(hotel.getBytes()); 
predicate.setSlice range(sliceRange); 











// 读 取 这 行 的 所 有 列 
String scFamily = "PointOfInterest"; 
ColumnParent parent - new ColumnParent(scFamily); 











KeyRange keyRange - new KeyRange(); 
keyRange.start key - "".getBytes(); 
keyRange.end key - "".getBytes(); 

List&ltPOI» pois = new ArrayList(); 





// 取 出 的 不 是 一 个 简单 的 列表 ， 而 是 一 个 映射 ， 映射 的 键 值 是 行 键 值 





// 值 是 行 键 值 对 应 的 列 的 列表 

// 只 有 行 键 值 十 第 一 列 是 有 索引 的 

Connector cl = new Connector(); 

Cassandra.Client client - cl.connect(); 

List&ltKeySlice» slices = client.get range slices( 
parent, predicate, keyRange, CL); 





























— — 














for (KeySlice slice : slices) ( 
List&ltColumnOrSuperColumn» cols - slice.columns; 


POI poi - new POI(); 
poi.name - new String(slice.key); 


for (ColumnOrSuperColumn cosc : cols) { 
SuperColumn sc - cosc.super column; 


List&ltColumn» colsInSc - sc.columns; 


for (Column c : colsInSc) ( 
String colName - new String(c.name, UTF8); 
if (colName.equals("desc")) ( 
poi.desc - new String(c.value, UTF8); 


} 
if (colName.equals("phone")) { 
poi.phone - new String(c.value, UTF8); 


} 

} 

LOG.debug("Found something neat nearby: " + poi.name + 
", NnDesc: " + poi.desc + 
", NnPhone: " + poi.phone); 


pois.add(poi); 


} 


cl.close(); 
return pois; 

















// 使 用 键 值 区 间 
public List&ltHotel» findHotelByCity(String city, String state) 
throws Exception ( 








IIT 








LOG.debug("Seaching for hotels in " + city + ", " + state); 
String key = city + ":" + state.toUpperCase(); 


/// 查 询 
SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range(sliceRange); 

// 读 取 行 中 的 所 有 列 
String columnFamily 
ColumnParent parent 























= "HotelByCity"; 

= new ColumnParent(columnFamily); 
KeyRange keyRange - new KeyRange(); 

keyRange.setStart key(key.getBytes()); 

keyRange.setEnd key((key*1).getBytes()); // 键 值 区 间 外 一 点 
keyRange.count = 5; 





Connector cl = new Connector(); 
Cassandra.Client client - cl.connect(); 
List&ltKeySlice» keySlices - 
client.get range slices(parent, predicate, keyRange, CL); 


List&ltHotel» results = new ArrayList&ltHotel»(); 


for (KeySlice ks : keySlices) ( 
List coscs - ks.columns; 
LOG.debug(new String("Using key " + ks.key)); 


for (ColumnOrSuperColumn cs : coscs) ( 


Hotel hotel - new Hotel(); 

hotel.name new String(cs.column.name, UTF8); 
hotel.city city; 

hotel.state - state; 


results.add(hotel); 
LOG.debug("Found hotel result for " + hotel.name); 


} 


// 查 询 结 束 
cl.close(); 





return results; 





我 在 代码 中 插入 了 零散 的 注释 ， 以 解释 每 段 代 码 的 用 途 。 








程序 运行 的 输出 如 例 4-8 所 示 。 


例 4-8: 
酒店 应 用 运行 的 输出 





DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 
DEBUG 


09 
09 
09 
09 
09 
09 
09 
09 
09 
09 
09 
09 
09 


:49:50,858 Inserted AZC 043 

:49:50,861 Inserted AZS 011 

:49:50,863 Inserted CAS 021 

:49:50,864 Inserted NYN 042 

:49:50,864 Done inserting at 6902368219815217 

:49:50,873 Inserted HotelByCity index for Cambria Suites Hayden 
:49:50,874 Inserted HotelByCity index for Clarion Scottsdale Peak 
:49:50,875 Inserted HotelByCity index for The W SF 

:49:50,877 Inserted HotelByCity index for The Waldorf-Astoria 
:49:50,877 Inserting POIs. 

:49:50,880 Done inserting Empire State. 

:49:50,881 Done inserting Central Park. 

:49:50,885 Done inserting Phoenix Zoo. 


DEBUG 09:49:50,887 Done inserting Spring Training. 

DEBUG 09:49:50,887 Done inserting POIs. 

DEBUG 09:49:50,887 ** Database filled. ** 

DEBUG 09:49:50,889 ** Starting hotel reservation app. ** 

DEBUG 09:49:50,889 Seaching for hotels in Scottsdale, AZ 

DEBUG 09:49:50,902 Using key [B915e9756 

DEBUG 09:49:50,903 Found hotel result for Cambria Suites Hayden 

DEBUG 09:49:50,903 Found hotel result for Clarion Scottsdale Peak 

DEBUG 09:49:50,904 Found hotels in city. Results: 2 

DEBUG 09:49:50,904 You picked Cambria Suites Hayden 

DEBUG 09:49:50,904 Finding Points of Interest near Cambria Suites Hayden 
DEBUG 09:49:50,911 Found something neat nearby: Phoenix Zoo. 

Desc: They have animals here.. 

Phone: 480-555-9999 

DEBUG 09:49:50,911 Found something neat nearby: Spring Training. 

Desc: Fun for baseball fans.. 

Phone: 623-333-3333 

DEBUG 09:49:50,911 Hm... Phoenix Zoo. They have animals here.--Sounds fun! 
DEBUG 09:49:50,911 Now to book a room... 

DEBUG 09:49:50,912 All done. 














提示 一 下 ， 通 常 不 需要 直接 写 Thrift 或 是 Avro， 而 应 该 使 用 第 8 章 给 出 的 某 个 客户 端 。 


XE 








4.5 Twissandra 


当 你 开始 研究 如 何 用 Cassandra 进 行 设计 的 时 候 ， 可 以 先 看 看 Eric Florenzano 5 HR 
下 载 并 试用 。 源 代码 是 用 Python 写 的 ， 有 一 些 对 Django 和 JSON 库 的 依赖 关系 需要 解 ; 











Eric Evans 有 一 篇 非常 不 错 的 博客 文章 ， 介 绍 了 如 何 使 用 Twissandra， 这 篇 文章 位 
1 

















译注 1: 译 者 曾 翻译 过 此 篇 文章 ， 位 于 http://wangxu.me/blog/p/383 





4.6 小 结 





本 章 我 们 学 习 了 如 何 创建 一 个 完整 可 用 的 Cassandra 应 用 。 我 们 对 比 了 一 个 典型 的 关系 





第 5 章 Cassandra 的 架构 

















在 本 章 中 ， 我 们 将 探讨 cassandra 的 内 部 设计 ， 以 便 理 解 它 是 如 何 工 作 的 。 我 们 将 剖析 ! 





























cassandra 的 架构 非常 精巧 ， 构 建 于 多 种 理论 结构 之 上 。 在 讨论 这 里 的 新 名 词 时 ， 可 能 














5.1 System keyspace 


Cassandra 有 一 个 称 为 System 

的 内 部 keyspace， 用 于 存储 关于 集群 的 原 数据 ， 以 帮助 各 种 操作 顺利 进行 。 在 微软 的 
和 tempdb 

. master 

用 于 保存 磁盘 空间 、 使 用 率 、 系 统 设置 以 及 一 般 性 的 服务 安装 信息 ， 而 tempdb 

则 是 一 个 工作 空间 ， 用 于 存储 中 间 结 果 和 完成 一 般 性 任务 的 。0racle 数 据 库 也 有 一 个 
的 表 空 间 ， 用 作 类 似 用 途 。Cassandra 的 System 

keyspace 的 用 途 与 这 些 数 据 库 非 常 类 似 。 




















特别 指出 ，system 
keyspace 不 仅 存 储 了 用 于 本 地 节点 的 元 数据 ， 也 存储 提示 切换 信息 。 这 些 元 数据 包括 





用 于 支持 动态 装载 的 keyspace 和 schema 的 定义 ; 





迁移 数据 ; 





节点 是 否 自 举 成 功 。 


schema 的 定义 存储 于 两 个 列 族 之 中 : Schema 
列 族 保存 用 户 的 keyspace 和 schema 的 定义 ， 而 Migrations 
列 族 则 用 于 记录 对 keyspace 的 变更 。 











system keyspace 是 无 法 手工 修改 的 。 





5.2 对 等 结构 


在 传统 的 多 节点 部 署 的 数据 库 〈 如 MySQL) ， 甚 至 是 使 用 较 新 模型 的 数据 库 产 品 〈 如 God 








Cassandra 与 此 相反 ， 采 用 了 对 等 结构 (P2P) 的 分 布 式 模 型 。 在 这 个 模型 中 ， 从 结构 











这 种 设计 还 让 Cassandra 更 加 易于 通过 增加 节点 来 扩展 系统 。 因 为 所 有 贡 点 的 行为 是 相 








5.3 gossip 与 故障 检测 


为 了 做 到 无 中 心 、 容 忍 网 络 分 裂 ，Cassandra 使 用 了 一 个 gossip《〔〈 流 言 ) 协议 来 进行 








gossip 协 议 〈 流 言 协议 ， 有 时 也 叫做 “传染 协议 ”) ， 通 常 假设 网 络 是 不 可 靠 的 ， 常 见 
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A 

aa 
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t>. 


“gossip 协 议 “ 这 个 名 词 是 1987 年 由 当时 施乐 公司 帕 洛 阿尔 托 研究 中 心 的 研究 员 A1 




















Cassandra 中 的 gossip 协 议 主要 是 在 org. a cassandra.gms.Gossip 
类 中 实现 的 ， 这 个 类 用 于 管理 本 地 节点 的 gossip 通 信 。 当 一 个 服务 节点 启动 后 ， 它 会 


























因为 Cassandra 的 gossip 会 用 于 故障 检测 ， 所 以 Gossiper 
类 会 维护 一 个 节点 列表 ， 存 储 节点 的 死活 信息 。 








gossiper 是 这 样 工作 的 。 


G=gossiper (按照 TimerTask 
的 设置 ) 周期 性 地 运行 ， 在 环 里 随机 选择 一 个 节点 ， 发 起 对 这 个 节点 的 gossip 





给 它 选 好 的 伙伴 节点 发 送 一 条 GossipDigestSynMessage 





当 伙 伴 节点 收 到 消息 时 ， 回 复 一 条 GossipDigestAckMessage 











发 起 者 收 到 伙伴 发 回 的 响应 消息 后 ， 再 向 伙伴 发 送 一 条 GOSssipDigestAck2- 
， 以 此 完成 本 轮 gossip。 





当 gossiper 发 现 一 个 端点 已 经 死亡 的 时 候 ， 就 会 通过 在 它 本 地 的 列表 中 将 这 个 节点 标 ; 














Cassandra 的 故障 检测 非常 强健 ， 使 用 了 一 个 在 分 布 式 计算 领域 中 非常 流行 的 Phi 增 











增 量 故障 检测 基于 两 个 基本 思路 。 第 一 个 整体 思路 是 ， 故 障 检测 应 该 是 灵活 的 ， 这 通过 





这 样 ， 故 障 监 测 系统 会 根据 对 节点 发 生 故障 的 确信 程度 ， 输 出 一 个 连续 变化 的 “嫌疑 ”级 











uM 





可 以 在 这 里 http://ddg.jaist.ac.jp/pub/HDY+04.pdf 
阅读 Naohiro Hayashibara 等 人 关于 Phi 增 量 故障 检测 的 论文 。 





cassandra 中 的 故障 检测 在 org.apache.cassandra.gms.FailureDetect 


类 中 实现 ， 这 个 类 实现 了 org.apache.cassandra.gms.IFailureDetect 
接口 。 它 们 共同 允许 进行 如 下 操作 。 








isAlive(InetAddress) 





故障 检测 器 会 返回 一 个 节点 的 存活 度 报 告 。 


interpret(InetAddress) 
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report(InetAddress) 





当 一 个 节点 接收 到 一 个 心跳 时 ， 会 调用 这 个 方法 。 





5.4 iuUi5*eE 


在 谈 到 gossip 协 议 的 地 方 ， 你 常常 还 会 发 现 一 个 与 之 对 应 的 机 制 一 逆 焙 ， 这 也 是 一 种 看 




















(anti-entropy) 是 Cassandra 的 副本 同步 机 制 ， 用 于 保障 不 同 节 点 上 的 数据 都 更 让 




















接 下 来 就 是 逆 炉 是 如 何 工作 的 。 服 务 器 在 主 压 紧 操作 期 间 ， 会 与 邻居 节点 进行 一 个 Trel 
类 的 职责 。AntiEntropyService 








使 用 了 Singleton 模 式 ， 并 定义 了 前 














态 的 Differencer 





类 ， 可 以 用 于 比较 两 棵 树 。 如 果 它 在 两 棵 树 之 间 发 现 了 任何 差异 ， 都 会 对 差异 部 分 局 动 


亚 马 进 的 Dynamo 中 使 用 了 首 粹 ，Cassandra 的 实现 就 使 用 的 Dynamo 的 模型 (参考 Dyni 








Dynamo 在 道 蚁 中 使 用 了 Merkle 树 (参见 词汇 表 中 Merkle 树 的 定义 ) 。Cassandra 也 1 





在 每 次 更 新 之 后 ， 首 炳 算法 都 被 引入 。 





在 Cassandra 中 ， 集 群 由 多 个 节点 组 成 ， 其 中 的 一 个 或 多 个 会 作为 某 块 给 定数 据 的 各 











这 会 对 数据 库 进 行 校 验 和 ， 并 与 其 他 节点 比较 校 台 























这 个 设计 不 仅 在 Cassandra 存 在 ， 很 多 键 / 值 存储 系统 之 中 也 是 如 此 ， 如 Voldemort 项 





如 果 客 户 端 指定 了 弱 一 致 性 级 别 〈 比 如 ONE 








那么 读 修复 会 在 返回 给 客户 端 之 后 的 后 台 进 行 。 如 果 使 用 了 两 种 更 强 的 一 致 性 级 另 


AT 








) ， 那 么 读 修复 在 数据 返回 给 客户 端 之 前 就 进行 了 。 





如 果 一 个 读 操作 发 现 了 同一 时 间 蕉 的 不 同 值 ，Cassandra 会 直接 使 用 一 个 决胜 











5.5 memtable、SSTable 和 commit log 


进行 写 操作 的 时 候 ， 数 据 是 直接 写 入 到 commit log 中 的 。commit log 是 Cassandra 





数据 写 入 到 commit log 中 之 后 ， 会 写 入 到 称 为 nemtable 的 内 存 数 据 结构 之 中 。 当 mem 








每 个 commit log 都 有 一 个 内 部 的 标志 位 ， 用 于 标识 其 是 否 需要 刷 写 。 当 接收 到 一 个 写 失 
。 每 个 列 族 只 有 一 个 标志 位 ， 因 为 一 台 服 务 器 上 ， 只 有 一 个 commit 10g 最 终 会 被 写 入 
， 这 就 表示 不 存在 需要 持久 化 的 数据 了 。 和 一 般 的 日 志文 件 一 样 ，commit 1og 也 有 一 























SSTable 的 概念 是 从 Go0gle 的 Bigtable 里 借鉴 过 来 的 。 一 旦 memtable 被 刷 写 入 磁盘 


a 
("uv 


SSTable 是 有 序 字符 串 表 (Sorted String Table) 45, XJ T Cassandralf 











每 个 SSTable 有 一 个 关联 的 Bloom filter， 用 以 提高 性 能 (参见 5.8 节 ) 。 








所 有 的 写 操作 是 顺序 进行 的 ， 这 正 是 Cassandra 的 写 操作 性 能 出 众 的 原因 。 在 cassand 








对 于 读 操作 ，Cassandra 会 首先 检查 memtable 来 查找 值 ，memtable 是 由 org.apac 














5.6 提示 移交 


考虑 如 下 场景 。 一 个 写 请 求 到 达 Cassandra， 但 是 负责 这 部 分 数据 的 节点 却 由 于 网 络 分 
(hinted handoff) 的 机 制 。 可 以 把 一 个 提示 
看 做 是 一 个 小 即时 贴 ， 上 面 记录 着 写 请 求 的 内 容 。 如 果 写 操作 所 属 的 节点 失败 了 ，Cas 


























提示 移交 允许 Cassandra 对 于 写 操作 永远 可 用 ， 降 低 离线 节点 恢复 服务 之 后 的 不 一 致 的 | 
， 这 个 一 致 性 级 别 意味 着 有 一 个 提示 移交 就 可 以 认为 写 操作 是 成 功 的 。 也 就 是 说 ， 即 使 











一 些 对 提示 移交 的 顾虑 ， 在 Cassandra 社 区 内 部 就 已 经 提出 过 了 。 起 先 ， 这 似乎 是 一 个 











作为 对 顾虑 的 回应 ， 现 在 可 以 完全 关闭 提示 移交 ， 或 者 ， 用 一 个 不 那么 极端 的 方法 ， 降 作 








在 Cassandra 0.6 和 更 早 的 版 本 中 ， pe a A sendMess 
会 把 一 整 行 读 入 到 内 存 之 中 ， 然 后 把 整 行 信息 在 一 条 消息 中 返回 给 客户 端 。 而 在 0 








5.7 KZ 


在 Cassandra 中 ， 压 紧 操作 用 于 合并 SSTab1Le。 在 压 紧 操作 过 程 中 ，SSTab1le 中 的 数 # 





压 紧 操作 是 通过 合并 大 的 累积 文件 而 释放 空间 的 过 程 。 大 致 类 似 于 关系 型 数据 库 里 的 重 





在 压 紧 操作 中 ， 合 并 后 的 数据 是 有 序 的 ， 对 这 些 有 序 的 数据 会 创建 一 个 新 的 索引 文件 ， 
«SI 
和 过 才 滤 程序 
) 。 这 个 过 程 由 org.apache.cassandra.db.CompactionManager 


类 来 管理 ,CompactionManager 
实现 了 一 个 MBean 接 口 ， 支 持 内 省 机 制 。 
























































压 紧 的 另 一 个 重要 功能 是 通过 降低 定位 的 次 数 来 提高 性 能 。 对 于 一 个 给 定 的 键 值 ， 要 碍 # 


cassandra 中 有 多 种 不 同 的 压 紧 操 作 。 主 压 紧 
的 出 发 原因 有 两 种 : 通过 节点 探测 触发 或 是 自动 进行 。 节 点 探测 会 给 被 探测 节点 的 相 邻 
， 来 验证 列 族 。 




















获取 列 族 中 的 键 值 分 布 。 











行 被 加 入 到 验证 器 中 之 后 ， 如 果 列 族 需要 验证 ， 就 会 创建 Merkle 树 ， 并 广播 到 周 i 














Merkle 树 们 被 放 在 一 起 ， 作 为 一 个 Differencers 
(需要 验证 或 比较 的 树 ) 的 列表 发 送 。 

















比较 过 程 由 StageManager 

类 进行 ， 这 个 类 负责 管理 执行 任务 时 的 并 发 问题 。 在 压 紧 时 ，StageManager 
使 用 一 个 逆 焙 阶段 。 它 使 用 org .apache.cassandra.concurrent.JM 
类 ， 在 一 个 单线 程 内 执行 压 紧 程序 ， 并 使 这 个 操作 可 以 作为 一 个 MBean， 支 持 内 人 



































你 可 以 通过 降低 压 紧 线 程 的 优先 级 来 提高 整体 性 能 。 这 可 以 使 用 如 下 命令 行 参数 来 设置 : 


-Dcassandra.compaction.priority=1 


当然 ， 这 会 影响 CPU 的 使 用 率 ， 而 非 I0 的 。 





5.8 Bloom filter 








Bloom filter 是 一 种 提升 性 能 的 手段 ， 得 名 于 其 发 明 者 Burton Bloom. Bloom fi 


Nodetoo0l1 将 会 添加 一 项 新 的 JMX MBean 特 性 ， 人 允许 你 查看 Bloom filter 返 回 了 多 


少 


Ha 

aa 

W 1 
t^ 








Apache Hadoop, Google Bigtable 和 Squid 绥 存 服 务 器 也 使 用 了 Bloom filt 


你 可 能 了 解 关系 型 世界 中 的 “ 软 删 除 “ 这 个 概念 。 软 删除 是 指 ， 应 用 并 不 直接 执行 SQL 的 d 





在 Cassandra 之 中 ， 有 个 与 此 类 似 的 概念 ， 称 为 墓碑 
。 这 就 是 所 有 删除 操作 的 做 法 ， 因 而 也 是 自动 为 你 执行 的 。 当 你 执行 一 个 删除 操作 时 ， 




















有 一 个 相关 的 设置 ， 称 为 Garbage Collection Grace Seconds (垃圾 回收 时 延 )。 
更 长 了 ， 就 会 回收 它 。 这 个 时 延 的 设计 目的 是 留 下 足够 长 的 时 间 ， 以 便于 恢复 数据 ， 如 























在 Cassandra 0.7 中 ， 这 个 设置 是 对 每 个 列 族 都 可 配置 的 (曾经 是 整个 keyspace 的 一 








5.10 分 阶段 事件 驱动 染 构 





Cassandra 实 现 了 一 个 分 阶段 事件 驱动 架构 (SEDA) 。SEDA 是 一 种 为 高 并 发 互联 网 服 





à 





得 到 。 





原始 论文 可 以 在 http://www.eecs.harvard.edu/~mdw/proj/seda 


在 一 个 典型 的 应 用 中 ， 一 个 单独 的 任务 单位 经 常会 在 一 个 线程 内 来 完成 。 比 如 一 个 写 操 人 


) 来 决定 执行 的 任务 。 阶 段 是 任务 的 最 基本 的 单位 ， 一 个 操作 内 部 可 能 会 有 不 同 阶段 之 














一 个 阶段 包含 一 个 输入 事件 队列 、 一 个 中 








Mutation 


FAF AETI 


程序 和 一 个 相关 联 的 线程 池 。 这 些 阶 段 








Gossip 


附 在 均衡 


兽 加 的 操作 也 实现 为 阶段 。 一 些 阶 段 针 对 于 memtable 的 一 些 单元 操作 (在 Colu 





一 些 新 j 
类 中 ) 。StorageService 
里 的 一 致 性 管理 器 也 是 一 个 阶段 。 


























阶段 实现 了 IVerbHandler 
接口 ， 支 持 给 定 动词 的 功能 。 因 为 nutation 的 概念 实现 为 一 个 阶段 ， 所 以 它 既 可 以 用 























SEDA 是 一 个 很 强大 的 架构 。 因 为 它 是 事件 驱动 的 ， 正 如 其 名 ， 它 可 以 很 好 的 应 付 并 发 ， 











Cassandra 的 基本 内 部 控制 机 制 由 一 组 类 组 成 。 这 里 会 简单 介绍 一 下 这 些 类 ， 来 帮助 读 
类 。 这 个 类 实现 了 对 Thrift 调 用 接口 的 呼叫 ， 代 理 了 大 部 分 对 org.apache.cass 
的 查询 操作 。 









































5.11.1 Cassandra 和 守护 进程 


org.apache.cassandra.service.CassandraDaemon 

接口 对 应 着 一 个 节点 上 的 Cassandra 服 务 的 整个 生命 周期 。 它 包含 了 你 能 想到 的 各 种 
、Stop 

. activate 

. deactivate 

以 及 destroy 


5.11.2 存储 服务 


Cassandra 数 据 库 服 务 对 应 于 org.apache.cassandra.service.Storage 
类 。 存 储 服 务 持 有 节点 的 令 牌 ， 这 表征 了 节点 应 该 负责 的 数据 范围 。 








当 服 务 器 启动 时 ， 会 调用 这 个 类 的 jnitServer 
方法 ， 在 这 里 注册 SEDA 操 作 管 理 器 、 决 定 服务 器 的 状态 (比如 自 举 是 否 成 功 、 本 节点 自 
































5.11.3 消息 服务 





org.apache.cassandra.net.MessagingService 

的 用 途 是 创建 用 于 消息 交换 的 套 接 口 监听 器 的 ， 节 点 的 进出 消息 都 会 经 过 这 个 服务 。 
方法 会 创建 一 个 线程 。 每 个 到 达 的 连接 接 下 来 都 会 被 转交 到 ExecutorService 
线程 池 ， 使 用 org.apache.cassandra.net.IncomingTcpConnection 
(派生 自 Thread 

的 类 ) 来 解码 消息 。 消 息 会 首先 进行 验证 ， 之 后 判断 是 否 是 一 条 流 消息 。 消 息 

来 处 理 ， 否 则 就 由 MessagingService 

的 反 序列 化 执行 器 来 处 理 ， 它 是 以 一 个 执行 了 Runnable 

的 任务 的 形式 传递 的 。 因 为 这 个 服务 密集 使 用 了 “阶段 *， 而 且 使 用 MBean 封 装 了 它 维 扩 

























































































5.11.4 提示 移交 管理 器 


正如 它 的 名 字 , org.apache.cassandra.db.HintedHandoffManager 
是 内 部 用 于 管理 提示 移交 的 类 。 它 也 维护 了 一 个 线程 池 ， 同 样 可 以 通过 JMX 访 问 HINT 
来 监听 。 
































5.12 小 结 











本 章 中 ， 我 们 学 习 了 Cassandra 结 构 的 主要 支柱 ， 包 括 gossip、 道 焙 、 增 量 故障 检测 ， 








第 6 章 ”配置 Cassandra 


在 本 章 里 ， 我 们 来 看 看 如 何 配置 Cassandra。 我 们 将 逐一 地 创建 keyspace、 设 置 训 
































cassandra 无 须 配 置 即 可 使 用 ， 你 可 以 直接 下 载 、 解 压 ， 然 后 运行 可 执行 文件 ， 以 默认 | 


本 章 中 ， 我 们 将 聚焦 Cassandra 是 如 何 影 响 集群 中 的 节点 的 行为 的 ， 包 括 性 能 和 各 种 元 








cassandra 的 开发 进度 很 快 ， 会 不 断 地 发 生变 化 。 这 里 ， 我 会 尽力 跟 上 版 本 的 变化 ， 





6.1 keyspace 














在 老 版 本 的 Cassandra 中 ，keyspace 是 直接 定义 在 XML 配置 文件 中 的 ， 但 在 0.7 版 本 




















在 Cassandra 0.6 或 更 早 的 版 本 里 ， 和 集群 和 列 族 的 配置 位 于 一 个 称 为 storage-conf. 





从 Cassandra 0.7 开 始 ， 可 以 使 用 API 操 作 来 修改 schema 了， 和 SQL 的 数据 定义 语言 
或 ALTER TABLE 





一 旦 schema 加 载 到 system keyspace (Cassandra 用 于 存储 集群 元 数据 的 内 部 keys 


system add keyspace 





创建 一 个 Keyspace。 


system r ename keyspace 











对 一 个 keyspace 进 行 快照 ， 然 后 修改 它 的 名 字 。 这 个 方法 在 执行 完成 之 前 会 一 直 





system drop keyspace 
对 一 个 keyspace 


进行 快照 之 后 ， 完 全 删除 这 个 keyspace。 


system add column family 


创建 一 个 列 族 。 





system drop column family 


对 一 个 列 族 进行 快照 ， 然 后 删除 这 个 列 族 。 


system rename column family 


对 一 个 列 族 进行 快照 ， 然 后 改名 。 注 意 ， 这 个 操作 在 完成 之 前 也 会 一 直 阻 塞 住 。 





例如 ， 使 用 9 .7 对 命令 行 创建 一 个 新 的 keyspace。 可 以 启动 如 下 命令 行 工 具 : 


[default@unknown] connect 127.0.0.1/9160 
Connected to: "Test Cluster" on 127.0.0.1/9160 
[defaultQunknown] create keyspace Testi with replication factor-0 


610d06ed-a8d8-11df-93db-e700f669bcfc 
[defaultQunknown] describe keyspace Testi 


Keyspace: Testi 





default@unknown 
的 写法 和 MySQL 很 类 似 ， 使 用 鉴 权 的 用 户 名 〔 如 果 需 要 ) 和 当前 使 用 的 keyspace 名 作 








use &ltkeyspace» [&ltusername» 'password'] 





现在 ， 我 们 切换 到 在 命令 行 上 刚刚 创建 的 keyspace， 可 以 在 其 中 加 入 列 族 : 
4105a82f-ad51-11df-93db-e700f669bcfc 


在 创建 keyspace 或 列 族 的 时 候 ， 可 以 使 用 with 
标记 来 指定 其 他 附加 的 设置 ， 并 使 用 and 
标记 来 进行 更 多 设置 : 


[default@MyKeyspace] create keyspace NewKs with replication factor=1 














其 他 的 可 以 使 用 的 命令 行 命令 还 包括 : 


drop keyspace &ltkeyspace> 
drop column family &ltcf-» 


rename keyspace &ltkeyspace» &ltkeyspace new name» 
rename column family &ltcf» &ltnew name» 





这 些 工 作 还 可 以 通过 API 调 用 来 进行 ， 如 例 6-1 所 示 。 


例 6-1: 
使 用 API 来 动态 创建 keyspace 和 列 族 








package com.cassandraguide.config; 


import java.util.ArrayList; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 
import org.apache.cassandra.thrift.CfDef; 


import org.apache.cassandra.thrift.KsDef; 

import org.apache.thrift.protocol.TBinaryProtocol; 
import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 
import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 


public class ConfigAPI { 


private static final String HOST - "localhost"; 
private static final int PORT - 9160; 


/** 
* 创建 新 的 keyspace 和 列 族 。 
* 
/ 
public static void main(String... args) throws Exception ( 


String keyspaceName - "DynamicKeyspace"; 
System.out.println("Creating new keyspace: "+ keyspaceName); 





// 创 建 Keyspace 

KsDef k = new KsDef(); 

k . setName (keyspaceName) ; 

k.setReplication_factor(1); 

k.setStrategy class("org.apache.cassandra.locator.RackUnawareSt - 
rategy"); 


List cfDefs - new ArrayList(); 
k.setCf defs(cfDefs); 


// 连 接 服务 器 

TTransport tr = new TSocket(HOST, PORT); 
TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tr.open(); 





// 添 加 新 的 keyspace 
client.system add keyspace(k); 
System.out.println("Added keyspace: "+ keyspaceName); 




















要 创建 一 个 keyspace， 所 需要 做 的 就 是 给 定名 称 、 指 定 副本 放置 策略 〈 会 在 6.3 节 中 介 
里 插入 数据 了 。 


























uM 


如 果 你 不 指定 ，Cassandra 会 提供 一 个 默认 的 副本 策略 。 这 个 例子 里 ， 我 是 为 了 明 
































6.1.1 创建 列 族 








可 以 使 用 命令 行 或 是 API 来 创建 一 个 列 族 。 这 些 是 创建 列 族 时 可 以 指定 的 选项 。 








column type 


bw (Standard 


) 或 是 超级 列 族 (Super 
se 


clock type 








唯一 的 合法 值 就 是 TImestamp 


comparator 





合法 选项 包括 AsciiType 
. BytesType 

. LexicalUUIDType 
. LongType 

. TimeUUIDType 





和 UTF8Type 


subcomparator 





"1comlumn type 
是 Super 
时 ， 子 列 使 用 的 比较 器 。 合 法 值 的 规定 和 比较 器 是 一 样 的 。 














reconciler 
当 列 的 版 本 发 生 冲 突 的 时 候 ， 进 行 协调 的 类 的 名 字 。 有 目前 唯一 合法 的 值 是 TImest 





comment 


形式 的 人 类 可 读 的 任意 注释 内 容 。 





字符 


rows_cached 


E. 
o 


要 缓存 的 行 数量 











preload row cache 


把 这 个 选项 设置 为 true 
可 以 自动 加 载 行 缓存 。 








key cache size 








放 入 缓存 中 的 键 值 数量 。 





read repair chance 





合法 值 区 间 从 0.0 到 1.0。 





这 里 有 一 个 例子 : 





[defaultQüKeyspacei] create column family MyRadCF 


with column type-'Standard' and comparator-'UTF8Type' and rows . 
cached-40000 3ae948aa-ae14-11df-a254-e700f669bcfc 





6.1.2 从 0.6 迁 移 到 0.7 


放 在 conf 目 录 里 的 cassandra.yaml 文 件 是 用 来 蔡 换 之 前 的 storage-conf.xml 的 ， 
前 级 的 调用 来 配置 keyspace 和 和 列 族 。 

















如 果 有 一 个 已 有 的 0 ,6 版 本 的 storage-conf.xml 文 件 ， 首 先 要 做 的 就 是 使 用 bin/con 
之 中 ， 有 一 个 通过 JMX 输 出 的 操作 ， 称 为 loadSchemaFromYAML 














， 通 过 这 个 操作 可 以 强 





尽管 对 于 测试 来 说 ， 使 用 





名 Cassandra 重 新 加 载 种 子 节点 中 的 cassandra.yaml 文 件 ， 

















默认 设置 会 很 简单 ， 还 是 让 我 们 来 研究 一 下 如 何 设置 副本 放置 




















集群 中 的 节点 越 多 ， 副 本 放置 策略 也 就 越 重 要 。 在 Cassandra 中 ， 节 点 
(node) 这 个 名 词 使 用 得 非常 广泛 ， 是 指 一 个 运行 着 Cassandra 软 件 的 服务 器 ， 隶 属 



































每 个 Cassandra 节 点 都 是 某 些 东西 的 一 个 副本 。 对 于 一 个 给 定 的 键 值 区 间 ， 有 些 Cassa 


























一 个 Cassandra 人 集群， 或 是 说 一 组 主机 ， 通 常 被 认为 是 一 个 环 ， 原 因 就 在 这 里 揭晓 。 
类 中 。 令 牌 的 形式 依赖 于 你 所 使 用 的 分 区 器 (partitioner， 更 多 关于 分 区 器 的 信息 1 























cassandra 中 创建 一 个 副本 的 时 候 ， 第 一 个 副本 总 位 于 那个 拥有 所 在 键 值 区 间 令 牌 的 节 


























6.3 副本 放置 策略 




















简单 地 说 ， 对 于 配置 文件 来 说 ， 要 规定 一 个 副本 放置 策略 ， 只 要 提供 一 个 Java 类 的 名 字 
类 。 配 置 文件 中 的 这 个 设置 用 于 配置 节点 选择 器 的 工作 。 

















确定 副本 放置 的 位 置 ，Cassandra 使 用 了 “四 人 帮 “ 的 策略 (Strategy) 模式 。 
































副本 放置 策略 接口 提供 了 11 个 公开 方法 需要 实现 ， 如 果 你 的 策略 可 以 直接 使 用 抽象 父 类 























选择 合适 的 策略 非常 重要 ， 因 为 策略 决定 了 每 个 节点 负责 的 键 值 范围 。 这 意味 着 你 要 决 员 








第 一 个 副本 总 会 写 到 拥有 这 一 键 值 区 间 令 牌 的 节点 ， 但 其 他 副本 的 位 置 则 依赖 于 你 使 用 上 














在 我 写作 本 章 的 时 候 ， 这 些 策略 的 名 字 发 生 了 一 些 变化 。0 .7 版 本 中 的 名 字 将 会 是 简 
(之 前 称 为 机 架 无 关 策略 RackUnawareStrategy 

) ， 旧 网 络 拓扑 策略 OldNetworkTopology- Strategy 

(之 前 称 为 机 染 感 知 策略 RackAwareStrategy 

) ， 以 及 网 络 拓扑 策略 NetworkTopologyStrategy 

(之 前 称 为 跨 数据 中 心 分 片 策 略 DatacenterShardStrategy 

) e 




















6.3.1 简单 策略 


简单 策略 是 机 架 无 关 策略 的 新 名 字 。 


配置 文件 中 ， 默 认 使 用 的 策略 是 org .apache.cassandra.locator.RackUn 


。 这 个 策略 仅仅 履 盖 了 抽象 父 类 的 calculateNaturalEndpoints 
方法 。 这 个 策略 在 一 个 数据 中 心 内 部 放置 副本 ， 并 不 感知 副本 放置 的 数据 中 心 与 机 架 。 





图 6-1: 简单 策略 在 一 个 数据 中 心 内 部 放置 副本 ， 与 拓扑 无 关 


这 里 ， 实 际 上 是 环 上 的 后 N 个 节点 被 选择 存放 副本 ， 这 个 策略 并 不 了 解数 据 中 心 相关 信息 


6.3.2 旧 网 络 拓扑 策略 


cassandra 提 供 的 第 二 个 可 用 副本 放置 策略 是 org.apache.cassandra.loca 
， 现 在 称 为 旧 网 络 拓扑 策略 ， 主 要 用 于 将 副本 分 布 到 同一 个 数据 中 心 的 不 同 机 架 之 上 。 


一 样 ， 这 个 策略 也 只 覆盖 了 抽象 父 类 的 calculateNaturalEndpoints 
方法 。 这 个 类 如 其 原始 名 称 所 说 的 那样 ， 可 以 感知 到 数据 中 心中 的 机 架 位 置 。 


假设 你 有 DC1 和 DC2 两 个 数据 中 心 ， 里 面 有 一 组 Cassandra 服 务 器 。 使 用 这 个 策略 会 将 


这 个 策略 通过 牺牲 了 一 定 的 时 延 特 性 来 换取 高 可 用 性 ， 因 为 当 与 其 他 数据 中 心 的 节点 进 和 


数据 中 心 1 数据 中 心 2 





图 6-2: 有 旧 网 络 拓扑 策略 把 第 二 个 副本 放 在 另 一 个 数据 中 心 ， 然 后 把 其 他 副本 放 到 本 


如 果 你 使 用 机 架 感知 策略 ， 必 须 使 用 机 架 感知 Snitch。Snitch 在 6.6 节 介绍 。 


6.3.3 网 络 拓扑 策略 


相对 于 机 架 感知 策略 CRackAwareStrategy 
) , Cassandra 9.7 中 包含 的 网 络 拓扑 策略 允许 你 更 加 深度 地 定制 如 何 将 副本 分 布 到 
类 读 取 并 运行 ， 这 样 ， 拓 扑 的 设置 就 更 加 灵活 了 。 数 据 中 心 分 片 策略 如 图 6-3 所 示 。 





这 个 策略 曾经 使 用 过 一 个 称 为 datacenter .properties 的 文件 。 但 在 0.7 当 中， 这 些 





图 6-3: 按照 用 户 指定 的 方式 ， 网 络 拓扑 策略 把 一 些 数据 放 在 另 一 个 数据 中 心 ， 把 剩 





6.4 副本 因子 


副本 因子 (replication factor) 决定 了 数据 将 在 Cassandra 集 群 中 存放 多 少 个 副 
配置 项 决定 。 








一 个 直观 的 感觉 好 象 是 ， 集 群 中 节点 越 多 ， 副 本 因子 就 应 该 设置 得 更 高 。 








当 副 本 因子 为 1 的 时 候 ， 数 据 在 集群 中 只 存放 在 一 个 节点 上 。 如 果 这 个 节点 掉 线 的 话 ， 数 




















你 也 不 能 设置 比 节 点 数 更 多 的 副本 因子 值 ， 因 为 这 没有 任何 意义 。 实 际 上 ， 不 应 该 通过 1 


所 以 ， 如 果 你 有 一 个 10 个 节点 的 集群 ， 最 大 能 设置 的 副本 因子 就 是 10， 但 不 应 该 这 么 做 
看 起 来 是 最 低 的 ， 但 ANY 

类 似 于 ONE 

， 却 提供 更 低 的 一 致 性 ， 因 为 你 可 能 会 在 号 入 数据 之 后 很 久 才 能 看 到 写 入 的 数据 。 如 果 
操作 都 会 成 功 。 




















如 果 你 是 Cassandra 的 新 手 ， 副本 因子 和 一 致 性 级 别 可 能 让 你 觉得 有 些 无 所 适 从 。 




















升 副本 因子 








从 设计 上 说 ， 副 本 因子 不 是 一 个 在 运行 中 调整 的 参数 ， 而 应 该 在 集群 启动 之 前 设 定 。 但 








把 副本 因子 从 1 提高 到 2 的 更 快 的 方法 是 使 用 node tool。 首 先 在 原始 节点 执行 一 个 dra 






































配置 项 的 值 ) ， 确 保 不 要 复制 内 部 Cassandra keyspace 的 值 。 将 这 些 文件 粘贴 到 新 
都 设置 为 false 了 。 然 后 重启 两 个 节点 ， 运 行 node tool repair。 这 些 操作 将 让 客 











为 了 示意 这 个 过 程 ， 我 使 用 了 三 个 节点 ，IP 地 址 后 缀 分 别 是 1.5、1.7 和 1.8， 副 本 因子 














cassandra» connect 192.168.1.5/9160 
Connected to: "TDG Cluster" on 192.168.1.5/9160 


cassandra» set Keyspacei.Standard2['mykey']['rf']z'1' 
Value inserted. 








现在 ， 我 关 掉 节点 1.5， 连 接 到 另 一 个 节点 1,.7， 来 尝试 获取 我 设置 的 值 : 











cassandra» connect 192.168.1.7/9160 
Connected to: "TDG Cluster" on 192.168.1.7/9160 


cassandra» get Keyspacei.Standard2['mykey']['rf'] 
Exception null 








因为 我 的 副本 因子 是 1， 而 这 个 值 仅 写 入 到 1.5 这 个 节点 了 ， 所 以 当 我 失去 这 个 节点 的 时 
列 的 值 。 









































现在 我 们 来 看 看 提高 副本 因子 的 效果 。 把 1,5 和 1.7 节 点 的 副本 因子 从 1 提高 到 2， 然 后 
列 插入 新 值 : 








cassandra» connect 192.168.1.7/9160 
Connected to: "TDG Cluster" on 192.168.1.7/9160 
cassandra» get Keyspacei.Standard2['mykey']['rf'] 


Exception null 
cassandra» set Keyspacei.Standard2['mykey']['rf']z'2' 
Value inserted. 











之 前 的 例子 的 空 响应 显示 ， 之 前 节点 1.7 原 本 没 这 份 数据 。 现 在 关闭 1.7， 连 接 到 1.5， 


cassandra» connect 192.168.1.5/9160 
Connected to: "TDG Cluster" on 192.168.1.5/9160 


cassandra» get Keyspacei.Standard2['mykey']['rf'] 
-» (column-rf, value-2, timestamp-1279491483449000) 


























作为 一 般 性 的 原则 ， 你 可 以 估算 写 吞 吐 量 为 节点 数 除 以 副本 因子 。 所 以 ， 如 采 在 副本 因 



































未 来 已 经 到 来 ， 只 是 分 布 尚 不 均匀 。 


分 区 器 Cpartitioner) 的 用 途 是 允许 你 指 


A 
LA 
tQ 
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分 区 器 的 选择 不 适用 于 列 的 排序 ， 只 用 于 行 键 值 的 排序 。 





可 以 通过 修改 配置 文件 中 的 Partitioner 














—William Gibson 





定 行 键 值 应 该 被 如 何 排序 ， 这 会 严重 影响 数 




















元 素 或 通过 API 来 设置 分 区 器 。 这 个 元 素 需 要 指定 











个 实现 了 org.apache.cassa 


接口 的 类 的 名 字 。Cassandra 自 带 了 三 个 分 区 器 : 默认 的 随机 分 区 器 、 有 序 分 区 器 Co 
接口 来 创建 自己 的 分 区 器 ， 并 放 到 Cassansra 的 classpath 下 。 




















区 器 会 影响 磁盘 上 的 SSTable 的 表示 。 所 以 ， 如 果 修 改 了 分 区 器 ， 就 不 得 


6.5.1 随机 分 区 器 








随机 分 区 器 由 org.apache .cassandra.dht.RandomPartitionenr 
类 实现 ， 是 Cassandra 的 默认 分 区 器 。 它 使 用 BigIntegerToken 
存放 MD5 哈 希 值 ， 通 过 哈 希 值 来 决定 键 值 放 在 环 上 的 具体 位 置 。 这 样 做 的 好 处 是 可 以 让 





























6.5.2 有 序 分 区 器 








有 序 分 区 器 由 org.apache.cassandra.dht.OrderPreservingPartiti 


类 实现 ， 它 实现 了 IPartitioner&ltStringToken> 
接口 。 使 用 这 个 分 区 器 ， 令 牌 是 一 个 基于 键 值 的 UTF -8 字符 串 。 各 行 是 按照 键 值 的 顺序 















































值得 注意 的 是 ，0PP 在 区 间 查 询 时 并 不 比 随机 分 区 器 更 有 效率 一 它 只 是 提供 顺序 性 。 它 
或 move 
操作 来 手工 均衡 节点 。 














如 果 你 希望 从 客户 端 进行 区 间 碍 询 ， 就 必须 使 用 有 序 分 区 器 或 配 页 有 序 分 区 器 。 


6.5.3 配 页 有 序 分 区 器 





这 个 分 区 器 使 用 美国 英语 区 域 设置 CEN_US 
) 进行 键 值 排序 。 类 似 0OPP， 这 个 分 区 器 同样 使 用 UTF- 8 字符 串 锡 虽然 在 名 字 上 看 
。 因 为 用 途 实在 有 限 ， 这 个 分 区 器 很 少 被 使 用 。 





























0.7 版 本 里 ， 开 发 团队 新 增加 了 ByteoOrderedPartitionenr 
， 这 也 是 一 种 有 序 分 区 器 ， 它 将 数据 看 做 是 裸 字 节 ， 而 不 会 像 有 序 分 区 器 和 配 页 有 序 分 





























6.6 Snitch 








Snitch 的 工作 就 是 用 于 确定 主机 间 的 大 致 相互 关系 。Snitch 收 集 网 络 拓扑 的 信息 ， 以 人 


6.6.1 Simple Snitch 





CassandraZkf&Horg.apache.cassandra.locator.EndPointSnitc 
1 


它 简单 地 比较 节点 IP 地 址 的 每 个 字 节 。 如 果 两 个 主机 的 地 址 的 第 二 个 字 节 是 一 样 的 ， 








译注 1: 0.7 版 本 中 是 org.apache.cassandra.locator.SimpleSnitch 
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Exe Snitch 是 在 9.7 版 本 中 被 重 命名 的 ， 之 前 的 版 本 中 称 为 endpoint snit 

















可 以 通过 修改 配置 文件 中 的 <EndPointSnitch> 
元 素来 配置 endpoint snitch。 男 一 个 可 用 的 选择 是 PropertyFileSnitch 





6.6.2 PropertyFileSnitch 





org.apache.cassandra.locator.PropertyFileSnitch 
原本 位 于 contrib 
之 中 ， 在 0 .7 版 本 中 被 移动 到 了 主 代 码 部 分 了 。 这 个 Snitch 人 允许 在 使 用 机 染 感 知 策 











这 个 Snitch 由 Digg 开 发 ， 它 们 使 用 Cassandra 并 经 常 贡献 出 它们 的 开发 成 果 。 这 个 Sn 








L 


cassandra-rack.properties 的 默认 配置 是 这 样 的 : 








# Cassandra Node IP=Data Center :Rack 
.0.0.10=DC1:RAC1 
.0.0.11=DC1:RAC1 
.0.0.12=DC1 :RAC2 


.20.114.10-DC2:RAC1 
.20.114.11-DC2:RAC1 
.20.114.15-DC2:RAC2 


# default for unknown nodes 
default-DC1:ri 





这 里 可 以 看 到 ， 有 两 个 数据 中 心 ， 每 个 有 两 个 机 架 。Cassandra 可 以 依 此 高 效 地 判断 出 














修改 这 个 文件 中 的 每 个 值 来 反映 集群 的 配置 ， 指 定 有 哪些 IP 的 节点 属于 哪个 机 架 、 哪 个 ; 











Aa 


aa 
wW 
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在 晋升 为 标准 发 布 版 的 一 部 分 之 前 ，PropertyFilesnitch 
曾经 叫做 PropertyFileEndPointSnitch 


， 位 于 contrib 
目录 下 ， 如 果 你 希望 在 网 上 查找 相关 信息 的 话 也 可 以 参考 原来 的 名 字 。 











6.7 创建 集群 


可 以 在 一 个 单 节 点 上 运行 Cassandra， 这 对 于 开始 熟悉 Cassandra、 学 习 如 何 读 写 数 # 


VC 
a 3 
ON 加 


在 本 书写 作 时 ， 整 个 配置 机 制 正在 发 生 翻天 履 地 的 变化 。 本 节 适 用 于 如 何 使 用 9 . 6 上 




















这 里 ， 我 们 要 做 的 是 使 用 Cassandra 自 带 的 示例 keyspace 来 确保 多 台 机 器 在 同一 个 环 








在 这 个 练习 中 ， 假 设 我 们 有 两 台 机 器 ， 要 配置 为 一 个 cassandra 集 群 ，IP 地 址 分 别 为 1 








集群 中 的 新 节点 需要 一 个 种 子 节 后 
(seed node) 。 如 果 贡 点 A 作 为 节点 B 的 种 子 节 点 ， 当 节点 B 上 线 时 ， 节 点 B 会 把 节点 
设置 ， 因 为 它 会 认为 自己 是 集群 中 的 第 一 个 节点 。 








6.7.1 修改 集群 名 称 


cassandra 集 群 有 一 个 名 字 ， 这 样 可 以 避免 一 个 集群 中 的 节点 误 加 入 一 个 你 不 希望 它 参 
元 素来 修改 集群 名 称 一 要 确定 已 经 在 希望 加 入 到 集群 中 的 所 有 节点 上 都 修改 了 这 个 值 




















à A 
LA 
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如 果 已 经 在 现 有 的 Cassandra 集 群 中 写 入 了 数据 ， 然 后 再 修改 集群 名 称 ，Cassand 











6.7.2 给 集群 增加 市 皮 




















配置 文件 中 有 个 元 素 默 认 设 为 了 false。 假 设 你 已 经 运行 了 一 个 集群 ， 或 者 有 一 个 节点 3 
元 素来 做 到 这 点 。 我 有 一 个 Cassandra 服 务 器 ， 运 行 在 IP 地 址 后 缀 为 1 .5 的 机 器 上 ， 

















$ bin/nodetool -h 192.168.1.5 ring 


Address Status Load Range Ring 
192.168.1.5 Up 433.43 MB 126804671661649450065809810549633334036 | &lt-- | 





作为 一 个 种 子 节点 ， 这 台 服 务 器 有 自己 的 IP 地 址 ， 我 们 设 autobootstrap 为 false， 











现在 我 要 加 入 男 一 个 节点 来 分 担负 载 。 这 个 节点 的 地 址 后 缀 为 1 .7。 首 先 ， 确 定 集群 中 区 














当 第 二 个 节点 局 动 的 时 候 ， 它 会 立刻 发 现 第 一 个 节点 ， 之 后 会 休眠 90 秒 钟 ， 让 节点 们 通 ; 


:43,652 Starting up server gossip 
:43,886 Joining: getting load information 
:43,901 Sleeping 90000 ms to wait for load information... 
:45,742 Node /192.168.1.5 is now part of the cluster 
:46,818 InetAddress /192.168.1.5 is now UP 
:46,818 Started hinted handoff for endPoint /192.168.1.5 
:46,865 Finished hinted handoff of 0 rows to endpoint /192.168.1.5 
:13,913 Joining: getting bootstrap token 
:47:16,004 New token will be 41707658470746813056713124104091156 
313 to assume load from /192.168.1.5 
11:47:16,019 Joining: sleeping 30000 ms for pending range setup 
11:47:46,034 Bootstrapping 





根据 所 拥有 的 数据 量 ， 你 会 看 到 新 节点 在 一 定时 间 之 后 进入 工作 状态 。 可 以 使 用 Nodeto 
命令 来 观察 自 举 过 程 中 的 数据 传输 。 碍 看 日 志文 件 也 是 确定 自 举 完 成 的 好 办 法 ， 但 要 在 
。 最 终 ， 新 节点 将 会 从 第 一 个 节点 那儿 接收 到 负载 ， 你 将 得 到 一 个 新 节点 已 经 启动 的 操 


























INFO 11:52:29,361 Sampling index for /var/lib/cassandra/dataNKeyspace1^* 
Standard 1-1-Data.db 

INFO 11:52:34,073 Streaming added /var/lib/cassandra/dataNKeyspace1N 
Standard1-1-Data.db 

INFO 11:52:34,088 Bootstrap/move completed! Now serving reads. 


INFO 11:52:34,354 Binding thrift service to /192.168.1.7:9160 
INFO 11:52:34,432 Cassandra starting up... 





如 你 所 见 ， 数 据 传输 大 概 用 了 4 分 钟 左右 。 





在 自 举 期 间 ， 在 1.5 的 (种 子 ) 节点 看 起 来 是 这 村 


TTT 


的 : 





INFO 11:48:12,955 Sending a stream initiate message to /192.168.1.7... 
INFO 11:48:12,955 Waiting for transfer to /192.168.1.7 to complete 


INFO 11:52:28,903 Done with transfer to /192.168.1.7 





现在 ， 我 们 可 以 再 次 运行 nodetoo1l 
， 来 确定 一 切 设 置 正常 : 























$ bin/nodetool -h 192.168.1.5 ring 


Address Status Load Range Ring 
126804671661649450065809810549633334036 

192.168.1.7 Up 229.56 MB 41707658470746813056713124104091156313 |&lt 

192.168.1.5 Up 459.26 MB 126804671661649450065809810549633334036 |--> 








Cassandra 已 经 通过 从 之 前 的 节点 (1.50 分 出 了 一 半 的 负载 给 1.7， 成 功 的 自 举 了 这 -1 


cassandra» connect 192.168.1.5/9160 

Connected to: "TDG Cluster" on 192.168.1.5/9160 

cassandra» set Keyspacei.Standard2['mykey']['col0']-z'valueO' 
Value inserted. 





然后 打开 第 二 个 命令 行 客户 端 ， 从 1 .7 节点 读 这 个 值 : 


cassandra> connect 192.168.1.7/9160 
Connected to: "TDG Cluster" on 192.168.1.7/9160 


cassandra» get Keyspacei.Standard2['mykey']['col0'] 
=> (column-colO, value-value0, timestamp-1278878907805000 





你 可 以 重复 这 些 步 又 来 在 你 的 集群 中 加 入 更 多 的 节点 。 
































如 果 集群 中 某 个 节点 有 什么 地 方 出 错 了 (可 能 是 掉 线 了 ， 不 过 Cassandra 无 法 确定 ) ， 
的 时 候 可 以 看 到 一 个 问号 : 





$ bin/nodetool -h 192.168.1.5 ring 
Address Status Load Range 
112711146095673746066359353163476425700 


192.168.1.5 Up 459.26 MB 27647275353297313886547808446514704912 


192.168.1.7 ? 


229.53 MB 112711146095673746066359353163476425700 





6.7.3 多 种 子 节点 


cassandra 人 允许 你 指定 多 个 种 子 节 点 。 种 子 节 点 用 作 其 他 节点 的 联络 点 ， 这 样 Cassand 








默认 情况 下 ， 配 置 文件 中 只 有 一 个 seed 
项 : 


seeds: 
- 127.0.0.1 


要 在 你 的 环 上 增加 更 多 的 种 子 节点 ， 只 要 添加 第 二 个 种 子 元 素 就 行 了 。 我 们 只 需要 在 配 























seeds: 
- 192.168.1.5 
- 192.168.1.7 





aa 
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如 果 你 使 用 节点 自己 的 IP 作 为 种 子 节点 ， 那 么 autobootstrap 元 素 必 须 置 为 fals 





接 下 来 ， 我 们 需要 更 新 这 台 机 器 的 监听 地 址 ， 不 能 只 监听 本 地 还 回 地 址 。 监 昕 地 址 是 节 


listen address: 192.168.1.5 





最 后 ， 我 们 需要 修改 另 一 个 地 址 ，RPC 客 户 端 将 会 在 这 个 地 址 上 进行 广播 ， 因 为 这 是 其 人 
配置 项 ， 使 用 的 是 localhost。 我 们 将 会 修改 这 个 值 为 每 台 机 器 的 真实 的 IP 地 址 : 








rpc_address: 192.168.1.5 


这 项 rpc_address 
设置 仅 用 于 客户 端 到 Cassandra 节 点 的 直接 连接 。 
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rpc adress 


曾经 叫做 ThriftAddress 
， 不 过 因为 在 未 来 的 版 本 中 ， 可 能 会 使 用 Avro 蔡 换 Thrift 作 为 RPC 机 制 ， 这 个 参 交 








现在 ， 可 以 重新 启动 Cassandra， 并 开始 启动 其 他 机 器 上 的 系统 。 如 果 你 能 成 功 的 在 集 





INFO 15:45:15,629 Starting up server gossip 
INFO 15:45:15,677 Binding thrift service to /192.168.1.5:9160 


INFO 15:45:15,681 Cassandra starting up... 
DEBUG 15:45:16,636 GC for ParNew: 13 ms, 12879912 reclaimed leaving 
11233080 used; max is 1177812992 
DEBUG 15:45:16,647 attempting to connect to /192.168.1.7 
DEBUG 15:45:17,638 Disseminating load info ... 
INFO 15:45:19,744 Node /192.168.1.7 is now part of the cluster 


DEBUG 15:45:19,746 Node /192.168.1.7 state normal, token 
41654880048427970483049687892424207188 

DEBUG 15:45:19,746 No bootstrapping or leaving nodes -» empty pending 
ranges for Keyspacei 

INFO 15:45:20,789 InetAddress /192.168.1.7 is now UP 


DEBUG 15:45:20,789 Started hinted handoff for endPoint /192.168.1.7 
DEBUG 15:45:20,800 Finished hinted handoff for endpoint /192.168.1.7 


DEBUG 15:46:17,638 Disseminating load info 





这 些 输出 显示 ， 我 的 集群 中 有 两 个 节点 : 我 刚刚 启动 的 节点 正在 监听 192 .168.1.5， 另 








6.8 动态 加 入 环 


cassandra 和 集群 中 的 节点 可 以 随时 下 线 、 上 线 ， 而 不 影响 到 集群 的 其 他 部 分 


Starting up server gossip 

Binding thrift service to /192.168.1.7:9160 
Cassandra starting up... 

Node /192.168.1.5 is now part of the cluster 
InetAddress /192.168.1.5 is now UP 

error writing to /192.168.1.5 

InetAddress /192.168.1.5 is now dead. 

error writing to /192.168.1.5 

error writing to /192.168.1.5 











错误 消息 将 HEX, 直到 节点 1.5 重 新 上 线 位 置 。 运 行 nodetool 
就 可 以 看 到 ， 这 个 节点 已 经 下 线 ， 而 其 他 节点 仍 在 工作 中 。 





《假设 使 用 


我 们 恢复 这 个 节点 ， 并 检查 1.7 的 日 志 。 显 然 ，Cassandra 已 经 自动 地 发 现 了 另 一 


INFO 16:33:48,193 error writing to /192.168.1.5 
INFO 16:33:51,235 error writing to /192.168.1.5 


INFO 16:34:20,126 Standard2 has reached its threshold; switching in a 
fresh Memtable at CommitLogContext(file-'/var/lib/cassandra/commitlog*N 
CommitLog-127759165782.10g', position-752) 

INFO 16:34:20,173 Enqueuing flush of Memtable(Standard2)07481705 

INFO 16:34:20,251 Writing Memtable(Standard2)07481705 

INFO 16:34:20,282 LocationInfo has reached its threshold; switching in a 
fresh Memtable at CommitLogContext(file-'/var/lib/cassandra/commitlog* 
CommitLog-127759658782.10g', position-752) 

INFO 16:34:20,298 Enqueuing flush of Memtable(LocationInfo)824804063 

INFO 16:34:20,579 Completed flushing c:NvarMNlibNcassandraNdataNKeyspacei1*N 
Standad2-1-Data.db 

INFO 16:34:20,594 Writing Memtable(LocationInfo)824804063 

INFO 16:34:20,797 Completed flushing c:NvarNMlibNcassandraNdataNsystemN 
LocationIfo-2-Data.db 

INFO 16:34:58,159 Node /192.168.1.5 has restarted, now UP again 

INFO 16:34:58,159 Node /192.168.1.5 state jump to normal 











这 时 ， 节 点 1.5 的 状态 恢复 为 正常 ， 重 新 成 为 了 集群 的 一 部 分 : 


ebenQmorpheus$ bin/nodetool -host 192.168.1.5 ring 


Address Status Range 
41654880048427970483049687892424207188 

192.168.1.5 Up 20846671262289044293293447172905883342 

192.168.1.7 Up 41654880048427970483049687892424207188 





6.9 安全 





默认 情况 下 ，Cassandra 人 允许 网 络 中 的 任何 客户 端 连接 到 你 的 集群 上 。 这 并 不 是 说 Cas 














默认 插入 的 鉴 权 器 是 org.apache.cassandra.auth.AllowAllAuthentic 


。 如 果 要 求 客户 端 提供 认证 信息 ， 可 以 使 用 另 一 个 cassandra 自 带 的 鉴 权 器 ，org .a 
。 在 本 节 中 ， 我 们 来 看 看 如 何 使 用 这 个 鉴 权 器 。 























6.9.1 使 用 SimpleAuthenticator 


在 config 目 录 中 有 两 个 文件 : access.properties 和 passwd.properties。acce 





Keyspacei-jsmith,Elvis Presley,dilbert 


这 里 指出 了 允许 访问 Keyspacel 
的 三 个 用 户 ， 用 户 名 中 可 以 有 空格 。 

















而 passwd .properties 文 件 则 包含 每 个 用 户 及 其 密码 。 这 里 是 一 个 passwd .propert 


jsmith=havebadpass 
Elvis\ Presley=graceland4evar 
dilbert=nomoovertime 


注意 ， 因 为 Elvis Presley H EHAE T, UEH —ARRHI RKE X2. 














要 使 用 简单 鉴 权 器 ， 需 要 在 cassandra,yam1 之 中 替换 authenticator 元 素 的 内 容 。 
变 为 需要 登录 的 实现 类 的 名 字 : org.apache.cassandra.auth.SimpleAut 



































如 果 还 没有 正确 配置 鉴 权 文件 ， 那 么 会 得 到 这 样 一 条 错误 信息 : 








ERROR 10:44:27,928 Fatal error: When using org.apache.cassandra.auth. 


SimpleAuthenticator 
access.properties and passwd.properties properties must be defined. 





这 是 因为 还 有 一 步 没 有 做 完 : 我 们 必须 告诉 Cassandra 入 口 和 passwords 文 件 的 位 置 ， 








JVM_OPTS=" 
-Dpasswd.properties-/home/eben/books/cassandra/dist/ 

apache-cassandra-0.7.0-beta1/ 

conf/passwd.properties 
-Daccess.properties-/home/eben/books/cassandra/dist/ 

apache-cassandra-0.7.0-beta1/ 

conf/access.properties" 





如 果 你 指定 了 错误 的 文件 位 置 或 名 称 ， 服 务 器 会 给 出 相应 的 出 错 信息 : 





ERROR 11:13:55,755 Internal error processing login 
java.lang.RuntimeException: Authentication table file given by property 
passwd.properties 

could not be found: /somebadpath/my.properties (No such file or directory) 

















配置 成 功 之 后 ， 我 们 可 以 使 用 用 户 名 和 密码 来 登入 命令 行 界面 了 : 





[default@unknown] connect localhost/9160 

Connected to: "Test Cluster" on localhost/9160 
[defaultQunknown] use Keyspace1 jsmith 'havebadpass' 
Authenticated to keyspace: Keyspace1 
[jsmithQKeyspace1] 








如 果 输 入 了 错误 的 密码 ， 客 户 端 会 提示 : 


[defaultQunknown] use Keyspace1 jsmith 'havebadpassfdfdfd' 


Exception during authentication to the cassandra node: verify keyspace 
exists, and you are using correct credentials. 














如 果 输 入 了 不 存在 的 用 户 名 ， 或 试图 通过 鉴 权 登入 到 这 个 用 户 没有 访问 权限 的 keyspac 








[defaultQunknown] use Keyspace1 dude 'dude' 


Login failure. Did you specify 'keyspace', 'username' and 'password'? 
[defaultQunknown] 











有 一 点 让 人 不 解 的 是 ， 如 果 你 使 用 正确 的 用 户 名 密码 ， 登 录 一 个 没有 访问 权限 的 keyspa 

















[default@Keyspace1] get Standardi['user123']['name'] 
Your credentials are not sufficient to perform READONLY operations 


[defaultüKeyspace1i] 





假设 已 经 为 这 个 用 户 设置 了 "name 
值 ， 如 果 提 供 了 正确 的 认证 信息 ， 我 们 就 应 该 能 进行 这 个 操作 : 





























[default@Keyspace1] use Keyspacel1 eben 'pass' 

Authenticated to keyspace: Keyspace1 

[ebenQKeyspace1] get Standardi['user123']['name'] 

=> (column-z6e616d65, value-bootsy, timestamp-1284316537496000) 


[ebenQKeyspace1] 





还 能 在 连接 到 命令 行 界面 的 时 候 一 起 输入 用 户 名 和 密码 : 








ebenQmorpheus : -/books/cassandra/dist/apache-cassandra-0.7.0-beta1$ 
bin/cassandra-cli --host localhost --port 9160 


--username jsmith --password havebadpass --keyspace Keyspacei 


Connected to: "Test Cluster" on localhost/9160 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[jsmithüKeyspacei1] get Standardi['user123']['name'] 

=> (columnz6e616d65, value-bootsy, timestamp-1284316537496000) 
[jsmithQKeyspace1] 








运行 查询 就 可 以 返回 结果 。 


uM 








在 9.6 版 本 中 没有 提供 通过 Thrift API 的 登录 操作 ， 所 以 ， 如 果 先 启动 命令 行 ， 























uM 


在 9.7 版 本 中 ， 鉴 权 器 被 分 为 IJAuthenticator 
(负责 鉴 权 ) 和 IAuthority 

(负责 授权 ) . SimpleAuthenticator 

类 也 把 授权 的 功能 剥离 到 SimpleAuthority 
类 中 了 。SimpleAuthenticator 


类 只 读 取 passwd.properties 文 件 , 而 SimpleAuthority 
只 读 取 access .properties 文 件 。 








6.9.2 编程 鉴 权 





如 果 你 为 keyspace 设 置 了 鉴 权 ， 那 么 你 的 客户 端 应 用 代码 就 需要 登录 操作 。 可 以 参考 例 


例 6-2: 
编程 鉴 权 登录 到 一 个 keyspace 





package com.cassandraguide.config; 


import java.util.HashMap; 


Import 


Import 
Import 
Import 
Import 
Import 
Import 
Import 
Import 


JEX 


java.util.Map; 


org.apache.cassandra.thrift.AccessLevel; 
org.apache.cassandra.thrift.AuthenticationRequest; 
org.apache.cassandra.thrift.Cassandra; 
org.apache.thrift.protocol.TBinaryProtocol; 
org.apache.thrift.protocol.TProtocol; 
org.apache.thrift.transport.TFramedTransport; 
org.apache.thrift.transport.TSocket; 
org.apache.thrift.transport.TTransport; 

















* 如 何 连 接 到 设置 了 SimpleAuthenticator 的 keyspace 


*/ 
public 











class AuthExample { 


public static void main(String[] args) throws Exception { 


TTransport tr = new TSocket("localhost", 9160); 
TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tr.open(); 


AuthenticationRequest authRequest - new AuthenticationRequest(); 
Map&ltString, String» credentials - new HashMap(); 
credentials.put("username", "jsmith"); 
credentials.put("password", "havebadpass"); 
authRequest.setCredentials(credentials); 


client.set keyspace("Keyspace1"); 


AccessLevel access - client.login(authRequest); 
System.out.println("ACCESS LEVEL: " + access); 
tr.close(); 





在 这 种 情况 下 ， 程 序 会 输出 FULL 
， 因 为 这 是 用 户 的 访问 级 别 。 














这 里 有 些 问 题 需要 注意 。 首 先 ， 认 证 信息 使 用 USername 

和 password 

作为 键 ， 而 非 以 用 户 名 为 键 、 密 码 为 值 。 其 次 ， 需 要 单独 调用 set_keyspace 
， 以 指定 要 鉴 权 的 keyspace。 








ERE 











6.9.3 使 用 MD5 加 密 


SimpleAuthenticator 
类 有 两 种 密码 设置 方式 : 明文 文本 和 MD5 加 密 。 到 目前 为 止 ， 我 们 一 直 使 用 明文 文本 方 





可 以 通过 在 cassandra.in,.sh 文 件 中 传 入 passwd .mode 
开关 参数 来 启用 MD5 算 法 : 


JVM OPTSz" ^N 
-da *N 

//other stuff... 
-Dpasswd.modezMD5" 











现在 ， 如 果 要 使 用 未 加 密 的 密码 ， 就 会 得 到 这 样 一 个 错误 信息 : 
Exception during authentication to the cassandra node, verify you are 
using correct credentials. 


可 以 使 用 多 种 工具 ， 从 明文 用 户 名 密码 通过 单 向 哈 希 来 生成 MD5 加 密 的 版 本 。 这 里 有 一 人 

















$ python 

Python 2.6.5 ... 

>>> from hashlib import md5 
>>> p = "havebadpass" 


>>> h = md5(p).hexdigest() 
>>> print h 
ei1a31eee2136eb73e8e47f9e9d13ab0d 





现在 ， 在 passwd .properties 文 件 中 使 用 上 面 这 个 加 密 值 来 蔡 换 jsmith 
的 密码 就 可 以 了 。 





6.9.4 提供 你 自己 的 鉴 权 算法 























如 果 你 有 自己 的 特殊 需求 ， 可 以 为 Cassandra 提 供 你 自己 的 鉴 权 算法 ， 比 如 Kerberos 




















接口 即 可 。 这 个 接口 需要 提供 两 个 方法 ， 如 下 : 


public AccessLevel login(String keyspace, AuthenticationRequest 
authRequest) 
throws AuthenticationException, AuthorizationException; 


public void validateConfiguration() throws ConfigurationException; 





login 

方法 返回 一 个 Thrift AccessLevel 

实例 ， 并 指定 用 户 被 授权 的 访问 级 别 .。validateConfiguration 
方法 用 于 检查 鉴 权 机 制 是 否 被 正确 设置 了 。 比 如 ， 对 于 SimpleAuthenticator 
































， 就 会 检查 是 否 指定 了 access 和 password 文 件 。 





6.10 杂项 设置 





还 有 一 些 通用 设置 ， 不 属于 之 前 的 那些 分 类 ， 我 把 它们 都 集中 在 这 里 了 。 








column index size in kb 


























这 个 配置 项 指定 了 两 次 列 索引 之 间 ， 一 行 可 以 增长 的 太 寸 ， 单 位 为 KB。 如 果 列 值 者 


in memory compaction limit in mb 











这 个 值 代表 了 在 内 存 中 进行 压 紧 操作 的 行 的 尺寸 限制 。 如 果 一 行 的 长 度 超过 了 这 个 


gc grace seconds 





3x 4 (E Xeon] EET br [elc Wü ERE ARDRHIT MIC CARA, xe 


当然 ， 如 果 有 很 多 删除 操作 ， 可 以 通过 降低 这 个 值 来 让 系统 更 加 整洁 ， 但 是 这 并 不 








phi convict threshold 





这 个 值 规定 了 cassandra 的 故障 检测 算法 的 阔 值 ，Phi 值 达到 这 个 值 之 后 ，Cass 








Phii E 58 fec Esc UI 





自从 Cassandra 在 Facebook 开 始 开 发 起 ， 就 使 用 了 一 种 称 为 增 量 故障 检测 器 CAFD 


配置 文件 中 的 Phi 判 定 阐 值 可 以 用 来 调整 故障 检测 器 的 灵敏 度 。 较 低 的 值 提 高 灵敏 度 ， 








Phi 值 代表 了 一 个 节点 可 能 是 下 线 了 的 嫌疑 程度 。Cassandra 这 样 的 使 用 AFD 的 应 用 














你 可 以 阅读 Phi 增 量 故 障 检测 的 原始 论文 http://ddg.jaist.ac.jp/pub/HDY+0 
，Cassandra 的 设计 正 是 基于 此 论文 的 。 





6.11 附加 工具 














本 节 讨 论 一 些 Cassandra 自 带 的 杂项 工具 ， 可 以 帮助 你 配置 Cassandra。 


6.11.1 查看 刍 值 


你 可 以 通过 一 个 名 为 sstablekeys 
的 脚本 来 查看 SSTables 中 的 键 值 。 要 运行 这 个 脚本 ， 只 需要 使 用 把 要 碍 看 键 值 的 SST 

















eben@morpheus$ bin/sstablekeys /var/lib/cassandra/data/Hotelier/Hotel-1- 
Data.db WARN 10:56:05,928 Schema definitions were defined both locally 
and in cassandra.yaml. 

Definitions in cassandra.yaml were ignored. 

415a435f 303433 

415a535f303131 

4341535f303231 

4e5946e5f 303432 


6.11.2 导入 之 前 版 本 的 配置 

















如 果 你 在 0.6 版 本 Cassandra 中 使 用 配置 文件 定义 了 一 个 keyspace， 可 能 希望 将 它 导 
。 注 意 ， 这 个 方法 有 两 个 重要 警示: 首先 这 个 方法 按照 设计 ， 只 应 该 使 用 一 次 ， 其 次 ， 




















从 0.7 版 本 开始 ， 用 户 在 cassandra.yam1 中 的 keyspace 和 定义 不 会 在 服务 器 启动 的 时 1 





INFO config.DatabaseDescriptor: Found table data in data directories. 
Consider using JMX to call org.apache.cassandra.service.StorageService. 
loadSchemaFromYaml(). 





为 了 导入 数据 ， 
JMX 操 作 。 不 过 在 调用 这 个 命令 之 前 ， 还 需要 一 些 准备 工作 。 首 先 ， 要 从 Sourceforg 


接 下 来 ， 打 开 一 个 终端 ， 输 入 命令 jconsole。 这 会 启动 一 个 GUI， 打 开 Java 自 带 的 JC 


要 加 载 cassandra.yaml 定 义 的 keyspace， 单 击 JConsole 图 形 界面 的 MBeans 标 签 。 
bean， 接 着 点 开 StorageService 


， 然 后 是 0perations。 点 开 loadSchemaFromYAML 
操作 并 点 操作 的 按钮。 这 将 在 Cassandra 上 执行 命令 ， 加 载 存 放 在 cassandra.yaml 


要 进行 这 个 将 0 .6 的 配置 导入 到 9 .7 的 一 次 性 操作 ， 需 要 使 用 StorageService 


MBean 的 ]oadSchemaFromYaml 
操作 。 操 作 方 法 如 图 6-4 所 示 。 


x java Monitoring & Management Console 





-Fil-pid-22323-00g:3pache-cassandrathriftCassandraDaemon 





Overview. Memory Threads | Classes | VM Summary | MBeans E" 
[$ org.apache.cassanara.db | 79 
[+] org.apache.cassandra.gms 
[+] org.apache.cassandra.locator void loadSchemaFromYAML () 
[=] org.apache,cassandra,service 
= 8 StorageService 
[+] Attributes | 
[= Operations | 
drain 
truncate 
getNaturalEndpoints 
clearSnapshot | 
getRangeToEndpointMap | 
getPendingRangeToEndpo 
deliverHints 
forceTableCleanup Ia- 
forceTableCompaction 
takeSnapshot 
takeAllSnapshot 
forceTableFlush 
forceTableRepair 
setLog4jLevel 
decommission 
move 
loadBalance 
removeToken | 
exportSchema |. 
+) 8 StreamingService lv 














== invocation 











-MBeanOperationInfo | 







Name loadSchemaFromYAML 

Description Operation exposed for management 
Impact 
ReturnType 


























Descriptor 



































Laj pid: 24373 org.apache.cassandra thrift.Cassan... 





图 6-4: 使 用 jconsole 工具 加 载 cassandra.yaml 中 定义 的 老 的 keyspace 





现在 ， 你 应 该 可 以 在 日 志 中 看 到 类 似 这 样 的 信息 : 


:35:47 INFO thrift.CassandraDaemon: Cassandra starting up... 
:35:48 INFO utils.Mx4jTool: mx4j successfuly loaded 
HttpAdaptor version 3.0.2 started on port 8081 
: INFO config.DatabaseDescriptor: UTF8Type 
INFO config.DatabaseDescriptor: BytesType 
INFO config.DatabaseDescriptor: UTF8Type 
INFO config.DatabaseDescriptor: TimeUUIDType 
INFO config.DatabaseDescriptor: BytesType 
INFO config.DatabaseDescriptor: BytesType 
INFO config.DatabaseDescriptor: 





DatabaseDescriptor 日 志 非 常 有 用 ， 它 显示 出 了 加 载 schema 的 操作 。 





你 还 可 以 使 用 org .apache.cassandra.config.Converter 
类 来 帮助 你 将 storage- conf , xml 配置 文件 转化 为 cassandra,yam1 文 件 。 如 果 你 








要 导入 导出 数据 ，Cassandra 有 两 个 使 用 JSON 的 脚本 : 一 个 用 于 导入 JSON 








6.12 小 结 

















本 章 中 ， 我 们 看 了 如 何 设置 Cassandra， 包 括 使 用 API 的 新 的 动态 配置 方法 ， 以 及 一 些 j 





如 果 你 更 喜欢 使 用 图 形 界 面 而 非 命令 行 界面 ， 可 以 了 解 使 用 Chiton 设 置 Cassandra， 这 
找到 。 











第 7 章 “” 读 写 数据 


现在 ， 我 们 已 经 了 解 了 Cassandra 的 数据 模型 ， 将 继续 研究 Cassandra 读 写 数 据 时 进 4 








7.1 Cassandra 与 RDBMS 查 询 的 不 同 














cassandra 的 模型 的 查询 方法 与 RDBMS 的 有 很 多 不 同 之 处 ， 这 些 都 非常 重要 ， 需 要 时 时 








7.1.1 没有 Update 碍 询 





Cassandra 之 中 ， 并 没有 “update” (更 新 ) 这 个 初 指令 概念 ， 也 就 是 说 ， 没 有 一 个 称 ; 





7.1.2 记录 级 的 写 原 子 性 

















cassandra 在 每 次 写 操作 时 ， 自 动 提 供 记 录 级 的 原子 性 。 而 在 RDBMS 中 ， 你 必须 指定 使 








7.1.3 不 支持 服务 端 事 务 











因为 你 得 将 表 反 范式 化 来 创建 第 二 索引 ， 所 以 可 能 需要 将 数据 插入 到 两 个 或 更 多 个 表 中 

















更 准确 地 说 ， 对 于 Cassandra 不 支持 事务 这 上 点， 或许 只 是 因为 这 本 身 就 不 是 Cassandra 














7.1.4 没有 重复 键 值 





在 SQL 数据 库 中 ， 如 果 没 有 定义 某 列 作为 唯一 的 主键 ， 可 以 播 单 的 值 。 但 在 Cas 

















7.2 写 操作 的 基本 属性 








Cassandra 的 写 操 作 有 一 些 值得 注意 的 基本 属性 。 首 先 ，Cassandra 的 写 操作 非常 快 ， 

















因为 数据 库 的 commit log 和 提示 移交 设计 ，Cassandra 总 是 可 写 的 ， 而 且 ， 在 一 个 列 





7.3 — FEZ 





Cassandra 的 可 调 一 致 性 级 别 意 味 着 可 以 在 查询 中 指定 需要 多 少 一 致 性 。 高 一 致 性 级 别 
操作 : 它 知道 有 些 副 本 存在 过 期 的 数据 ， 并 会 使 用 最 新 的 数据 来 更 新 这 此 副 林 ， 保证 它 

















cassandra 中 ， 可 以 在 多 个 一 致 性 级 别 中 进行 选择 ， 相 对 于 写 操作 ， 一 致 性 级 别 对 于 读 











到 性 级 别 是 基于 配置 文件 中 指 定 的 副本 因子 的 ， 而 不 是 系统 中 的 节点 总 数 。 











表 7-1 读 一 致 性 级 别 























` 能 在 读 操作 时 指定 CL .ZERO ， 因 为 这 没有 意义 。 这 等 于 说 “不 要 从 任何 节点 给 我 数 和 














不 文 持 o 应 使 
































该 响应 的 值 。 同 时 会 创建 一 个 后 台 线程 ， 检 查 这 个 记录 的 其 
来 就 会 进行 读 时 修复 ， 以 确保 所 ETT 的 值 

。 当 大 部 分 副本 〈“【 副 本 因子 /2 返回 的 时 候 ， 把 时 间 玲 最 新 
则 在 后 台 对 其 余 副本 进行 读 时 修 
询 所 有 节点 。 等 待 所 有 节点 9 并 把 时 间 恰 最 新 的 记录 返回 给 台 客 户 端 。 之 后 ， 如 果 必 要 的 话 ， 在 
进行 一 次 读 时 修复 。 如 果 有 任何 节点 没有 响应 ， 读 操作 都 会 失败 













































































































































































































































































正如 你 在 表 中 看 到 的 ， 一 致 性 级 别 ZERO 

和 ANY 

对 于 读 操作 是 不 支持 的 。 注 意 ， 一 致 性 级 别 ONE 

意味 着 客户 端 将 得 到 第 一 个 给 出 啊 应 的 节点 的 值 一 即使 这 个 值 是 过 期 的 
。 因 为 在 记录 返回 给 客户 端 之 后 会 进行 读 时 修复 操作 ， 所 以 ， 接 下 来 的 读 操作 都 可 以 得 























另 一 个 值得 注意 的 是 ALL 
。 如 果 指 定 了 CL .ALL 
， 就 是 在 要 求 所 有 副本 必须 都 给 出 响应 ， 如 果 任何 持 有 这 个 记录 的 节点 宕 机 ， 或 由 于 其 
































如 果 一 个 节点 在 一 个 指定 的 时 间 内 未 能 响应 查询 ， 则 被 判断 为 无 响应 。 这 个 时 间 由 本 
设 定 ， 默 认 值 为 10 秒 。 








你 同样 可 以 为 写 操作 指定 一 致 性 级 别 ， 不 过 它们 的 含义 有 很 大 区 别 。 不 同一 致 性 级 别 对 





























; 写 操作 将 会 在 一 个 后 台 线 程 中 异步 完成 ， 无 法 确保 写 操作 一 定 成 功 






































子 /2) +1) 已 经 接收 到 数据 了 
子 指定 数量 的 节点 都 接收 到 数据 了 。 如 果 某 个 副本 对 写 操作 无 响应 ， 则 写 操作 会 















































最 值得 一 提 的 写 一 致 性 级 别 就 是 ANY 

。 这 个 级 别 意味 着 确保 写 操作 至 少 到 达 了 一 个 节点 ， 但 允许 提示 被 看 做 是 一 次 成 功 写 
。 也 就 是 说 ， 如 果 你 在 进行 写 操作 ， 而 目标 节点 刚好 都 宕 机 了 ， 那 么 服务 器 将 会 自己 记 
(hint) ,一 直 保 持 到 目标 节点 恢复 为 止 。 当 服务 器 发 现 一 个 节点 恢复 后 ， 会 检查 是 














写 操 作 时 使 用 一 致 性 级 别 ONE 
， 意 味 着 写 操作 将 被 写 入 到 commit log 和 memtable。 也 就 是 说 ，CL .ONE 
写 入 的 数据 是 持久 化 的 ， 要 达到 高 性 能 、 持 久 化 的 写 入 ， 这 是 可 用 的 最 低 的 一 致 性 级 别 








不 论 是 读 操作 还 是 写 操作 ，ZERO 
. ANY 
和 ONE 


都 被 划分 为 弱 一 致 性 ， 而 QUORUM 
和 ALL 
则 属于 强 一 致 性 。 因 为 Cassandra 中 的 读 写 操作 可 以 分 别 指定 一 致 性 级 别 ， 所 以 Cass 














7.4 该 操作 的 基本 属性 














cassandra 的 读数 据 操作 也 有 一 些 值 得 一 提 的 基本 属性 。 首 先 ， 读 数据 非常 容易 ， 因 为 




















要 完成 读 操作 ，Cassandra 需 要 进行 磁盘 定位 操作 ， 但 可 以 通过 增加 内 存 来 加 速 读 操 作 














基于 上 述 这 些 原因 ， 读 操作 肯定 会 比 写 操作 更 慢 。 分 区 器 并 不 影响 读 操 作 的 速度 。 在 进 和 














7.5 API 


本 节 会 给 出 Cassandra API 的 一 个 基本 概述 ， 这 样 我 们 开始 读 写 数据 的 时 候 ， 这 些 生 偶 





在 关系 型 数据 库 中 ，SELECT (选取 ) 、INSERT (插入 ) . UPDATE (更 新 ) 和 DELETE 














首先 你 需要 理解 两 个 基本 概念 : 区 间 (range) 和 切片 (slice) 。 许 多 查询 都 使 用 这 














a 
"us 


列 是 按照 类 型 排序 的 〈 由 CompareWith 
指定 ) ， 而 行 是 按照 它们 的 分 区 器 排序 的 。 


区 间 和 切片 








区 间 基 本 源 于 数学 的 “区 间 ”“ 概 念 ， 当 你 有 一 组 有 序 元 素 时 ， 可 以 通过 指定 开始 元 素 和 结 











区 间 通 常 指 〈 行 ) 键 值 
的 范围 。 而 切片 则 用 来 指 一 行 之 中 的 一 个 范围 内 的 列 。 





区 间 依 据 列 族 的 比较 器 (comparator) 来 工作 。 也 就 是 说 ， 给 定 列 a 





Tue 
， 其 上 的 区 间 (a 





PC 
) 包 含 列 a 
、b 
和 C 
。 所 以 ， 如 果 你 有 1000 个 名 字 为 长 整 型 的 列 ， 可 以 指定 查询 名 字 是 35 到 45 这 个 区 间 之 
) 之 内 的 列 ， 或 者 也 可 以 同样 批量 更 新 一 个 区 间 之 内 的 元 素 。 

















一 行 中 可 能 会 拥有 上 百 个 列 ， 但 你 不 太 可 能 希望 用 一 个 查询 把 它们 全 都 取出 来 。 列 是 有 








Aa 


à a 
a M 
wt a. 
3 











区 间 查 询 需 要 使 用 有 序 分 区 器 COrderPreservingPartitioner 
) ， 这 样 键 值 就 可 以 有 序 返 回 ， 其 顺序 是 由 分 区 器 使 用 的 码 页 (UTF-8 或 en_US) 3 























当 使 用 随机 分 区 器 并 指定 区 间 碍 询 时 ， 无 法 指定 比 “al11” 更 窄 的 区 间 。 这 显然 会 有 很 大 














还 有 一 点 可 能 会 引起 误解 。 当 你 使 用 随机 分 区 器 的 时 候 ， 必 须 明 白 ， 区 间 查 询 会 首先 对 
。 所 以 ， 如 果 使 用 从 “ALice”“ 到 “ALison“ 之 间 的 范围 ， 查 询 将 对 每 个 键 值 求 哈 希 值 ， 











如 下 是 使 用 随机 分 区 器 时 ， 碍 找 某 特定 键 值 的 读 操作 的 基本 流程 。 首 先 ， 对 键 值 求 哈 希 人 











7.6 设置 与 插入 数据 




















我 们 首先 来 看 插入 ， 因 为 你 需要 数据 库 里 有 些 内 容 来 进行 查询 。 在 本 节 中 ， 我 们 建 、 


H5, Ahttp://cassandra.apache.org 
下 载 Cassandra。 二 进 制版 本 很 适合 于 起 步 应 用 ， 如 果 你 遇 到 问题 的 话 ， 可 以 参考 第 2 








现在 ， 让 我 们 创建 一 个 新 项 目 来 测试 一 下 我 们 的 成 绩 吧 。 这 里 使 用 Eclipse 中 的 Java 项 
类 ; Cassandra 的 JAR 包 apache-cassandra-x.x.x.jar， 其 中 包含 了 org.apa 
包 下 的 各 个 类 。 我 们 还 需要 SLF4J 日 志 工 具 (API 和 实现 的 JAR 包 都 需要 ) ， 这 是 Cass 








-Dlog4j.configuration-file:///home/eben/books/cassandra/10g4j.properties 


Aa 


Á J 
a a 
Our 
ti 


] 在 Eclipse 中 ， 可 以 通过 创建 一 个 新 的 运行 配置 (Run Configuration) 来 添 力 








我 的 Log4j .properties 文 件 如 下 所 示 : 


# Output messages into a rolling log file as well as stdout 
10g4j.rootLogger-DEBUG, stdout,R 


# stdout 

10g4j.appender.stdout-org.apache.10g4j.ConsoleAppender 
10g4j.appender.stdout.layout-org.apache.1log4j.PatternLayout 
10g4j.appender.stdout.layout.ConversionPattern-?65p %d{HH:mm:ss, SSS} %m%n 


# rolling log file 

10g4j.appender.R-org.apache.log4j.RollingFileAppender 
log4j.appender.file.maxFileSize-5MB 

1og4j.appender.file.maxBackupIndex-5 
10g4j.appender.R.layout-org.apache.log4j.PatternLayout 
log4j.appender.R.layout.ConversionPattern-?bbp [%t] %d{IS08601} 96C %F (line 





96L) %m%n 


# This points to your logs directory 
10g4j.appender.R.File-cass-client.log 























为 了 简单 起 见 ， 我 们 使 用 了 默认 keyspace 和 配置 。 现 在 启动 服务 器 ， 并 创建 一 个 如 例 7 
和 age 
两 个 列 。 我 们 之 后 会 读 取 这 行 的 一 个 列 值 ， 再 之 后 读 取 整 行 。 


例 7-1: 
SimpleWriteRead.java 





package com.cassandraguide.rw; 


import java.io.UnsupportedEncodingException; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.Clock; 

import org.apache.cassandra.thrift.Column; 

import org.apache.cassandra.thrift.ColumnOrSuperColumn; 
import org.apache.cassandra.thrift.ColumnParent; 

import org.apache.cassandra.thrift.ColumnPath; 

import org.apache.cassandra.thrift.ConsistencyLevel; 
import org.apache.cassandra.thrift.InvalidRequestException; 
import org.apache.cassandra.thrift.NotFoundException; 
import org.apache.cassandra.thrift.SlicePredicate; 
import org.apache.cassandra.thrift.SliceRange; 

import org.apache.cassandra.thrift.TimedOutException; 
import org.apache.cassandra.thrift.UnavailableException; 
import org.apache.1log4j.Logger; 

import org.apache.thrift.TException; 

import org.apache.thrift.protocol.TBinaryProtocol; 
import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 
import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 


public class SimplewriteRead { 
private static final Logger LOG = Logger.getLogger(SimpleWriteRead.class); 


// 设 置 一 些 常量 
private static final String UTF8 = "UTF8"; 

private static final String HOST - "localhost"; 

private static final int PORT - 9160; 

private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 




















// 不 处 理 这 之 中 的 异常 
public static void main(String[] args) throws UnsupportedEncoding- 
Exception, InvalidRequestException, UnavailableException, 
TimedOutException, TException, NotFoundException { 











TTransport tr = new TSocket(HOST, PORT); 
//0.7Z."P framed transport 是 默认 设置 
TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tf.open(); 

client.set keyspace("Keyspace1"); 


























String cfName = "Standard1"; 
byte[] userIDKey = "1".getBytes(); // 这 是 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 





// 创 建 名 称 列 的 一 个 表述 
ColumnPath colPathName = new ColumnPath(cfName); 
colPathName.setColumn("name".getBytes(UTF8)); 


ColumnParent cp - new ColumnParent(cfName); 


// 插 入 姓名 列 
LOG.debug("Inserting row for key " + new String(userIDKey)); 
client.insert(userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 











// 插 入 年 龄 列 
client.insert(userIDKey, cp, 
new Column("age".getBytes(UTF8), 
"69".getBytes(), clock), CL); 





LOG.debug("Row insert done."); 








// 只 读 姓名 列 

LOG.debug("Reading Name Column:"); 

Column col - client.get(userIDKey, colPathName, 
CL).getColumn(); 


LOG.debug("Column name: " + new String(col.name, UTF8)); 
LOG.debug("Column value: " + new String(col.value, UTF8)); 
LOG.debug("Column timestamp: " + col.clock.timestamp); 











目的 起 始 值 和 终止 值 





m 








// 创 建 一 个 片 ， 来 表示 要 读 取 的 列 范 
// 这 里 使 用 的 是 al1 
SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range(sliceRange); 



































LOG.debug("Complete Row:"); 
// 读 取 这 行 的 所 有 列 
ColumnParent parent = new ColumnParent(cfName); 
List&ltColumnOrSuperColumn» results - 
client.get slice(userIDKey, 
parent, predicate, CL); 























// 通 过 循环 读 取 各 列 ， 输 出 各 列 的 值 
for (ColumnOrSuperColumn result : results) ( 
Column column = result.column; 























LOG.debug(new String(column.name, UTF8) + " : " 
+ new String(column.value, UTF8)); 


} 
tf.close(); 


LOG.debug("All done."); 





Inserting row for key 1 

Row insert done. 

Reading Name Column: 

Column name: name 

Column value: George Clinton 
Column timestamp: 1284325329569 
Complete Row: 

age : 69 

name : George Clinton 

All done. 











补充 一 点 ， 这 不 是 Cassandra 所 特有 的 特性 ， 使 用 Java， 你 都 可 以 很 方便 地 利用 D 
对 象 封装 long 
型 的 时 间 稚 ， 得 到 更 加 用 户 友 好 的 表达 形式 ， 用 法 如 下 : new Date(col.time 


o 











现在 ， 我 们 展开 介绍 所 做 的 工作 。 首 先 ， 我 们 连接 到 Cassandra 服 务 器 : 





TTransport tr = new TSocket(HOST, PORT); 
//9.7 中 新 的 默认 方法 是 分 帧 传输 
TFramedTransport tf = new TFramedTransport(tr); 








TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tf.open(); 

client.set keyspace("Keyspace1"); 








这 里 我 们 使 用 了 分 帧 传输 (framed transport) ， 这 是 Cassandra 0.7 中 的 默认 设 
的 keyspace。 











然后 ， 我 们 创建 列 族 的 名 称 、 用 做 行 键 值 的 值 ， 以 及 插入 时 需要 指定 的 时 钟 : 








String cfName = "Standard1"; 
byte[] userIDKey = "i".getBytes(); // 行 键 值 





Clock clock = new Clock(System.currentTimeMillis()); 


接 下 来 ， 我 们 使 用 带 有 列 路 径 的 客户 端 对 象 ， 插 入 新 值 : 








ColumnParent cp = new ColumnParent(cfName); 





// 插 入 name 列 
LOG.debug("Inserting row for key " + new String(userIDKey)); 


client.insert(userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 











插入 操作 需要 行 键 值 和 列 对 象 ， 列 对 象 中 包含 列 名 和 我 们 期 望 赋 给 它 的 值 。 同 时 我 们 还 针 


之 后 ， 重 复 一 次 类 似 的 工作 ， 在 同一 行 插入 age 列 ， 值 为 69: 





client.insert(userIDKey, cp, 
new Column("age".getBytes(UTF8), 
"69".getBytes(), clock), CL); 


这 里 ， 我 们 已 经 在 一 行 里 插入 了 两 列 ， 并 且 已 经 准备 好 读 出 来 进行 检验 了 。 
































要 验证 插入 的 值 是 否 被 正确 读 出 ， 可 使 用 客户 端的 get 
方法 ， 传 入 要 读 取 的 行 键 值 和 列 路 径 〈《 如 下 代码 是 name 
列 ) ， 并 指定 这 个 操作 需要 的 一 致 性 级 别 ; 




















ColumnPath colPathName = new ColumnPath(cfName); 

colPathName.setColumn("name".getBytes(UTF8)); 

Column col - client.get(userIDKey, colPathName, 
CL).getColumn(); 


LOG.debug("Column name: " + new String(col.name, UTF8)); 
LOG.debug("Column value: " + new String(col.value, UTF8)); 
LOG.debug("Column timestamp: " + col.clock.timestamp); 
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因为 Cassandra 会 为 列 名 和 值 返 回 一 个 字 节 数组 ， 我 们 使 用 这 个 字 节 数组 创建 一 个 字符 
对 象 来 包装 它 。 


使 用 get 
方法 ， 并 指定 列 路 径 和 其 他 参数 ， 可 以 读 出 一 个 列 的 值 。 而 现在 ， 我 们 将 取出 一 行 之 中 
) 。 这 里 ， 我 们 使 用 切片 谓词 : 








SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 


sliceRange.setStart(new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range(sliceRange); 





切片 谓词 
(slice predicate) 是 一 个 容器 对 象 ， 使 用 这 个 对 象 ， 可 以 通过 指定 起 始点 和 终止 
， 表 示 希 望 读 取 所 有 列 。 











现在 ， 谓 词 已 经 设置 好 了 ， 可 以 运行 这 个 区 间 切 片 查询 ， 读 取 一 行 中 的 所 有 列 ， 然 后 就 





ColumnParent parent = new ColumnParent(cfName); 
List results - 





client.get slice(userIDKey, parent, predicate, CL); 


如 上 ， 这 个 get_slice 

查询 使 用 了 我 们 创建 的 谓词 ， 同 时 还 有 两 个 新 参数 : ColumnOrSuperColumn 

类 和 一 个 column parent。ColumnOrSuperColumn 

类 正如 它 的 名 字 所 指 的 : 代表 了 Thrift 返 回 的 一 个 列 或 一 个 超级 列 。Thrift 不 支持 组 














column parent 是 到 一 组 列 的 上 层 《 列 族 或 超级 列 ) 的 路 径 。 因 为 我 们 要 通过 get_s 
接收 一 组 列 ， 需 要 指定 容纳 查找 的 这 组 列 的 列 族 。 现 在 ， 可 以 针对 这 行 来 循环 处 理 这 些 





























for (ColumnOrSuperColumn result : results) ( 
Column column = result.column; 


LOG.debug(new String(column.name, UTF8) +": " 
+ new String(column.value, UTF8)); 


+ 
tf.close(); 





你 可 以 使 用 insert 
操作 来 添加 值 或 是 覆盖 已 有 值 。 要 更 新 一 个 值 ， 只 要 对 同样 的 键 值 使 用 新 的 列 值 ， 执 行 
就 可 以 了 。 























你 还 可 以 一 次 插入 多 个 值 ， 这 将 在 7.13 节 中 介绍 。 











7.7 使 用 简单 的 get 


使 用 get 
操作 可 以 依据 列 路 径 取 出 列 或 超级 列 : 


ColumnOrSuperColumn get(byte[] key, ColumnPath column path, 
ConsistencyLevel consistency level) 


例 7-2 演 示 了 如 何 操作 。 





package com.cassandraguide.rw; 

















// 这 里 省 略 了 imports 




















public class GetExample { 
private static final Logger LOG - Logger.getLogger(GetExample.class); 


private static final String UTF8 - "UTF8"; 

private static final String HOST - "localhost"; 

private static final int PORT - 9160; 

private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 


public static void main(String[] args) throws UnsupportedEncodingException, 
InvalidRequestException, UnavailableException, TimedOutException, 
TException, NotFoundException ( 


TTransport tr = new TSocket(HOST, PORT); 

//9.7 中 新 的 默认 方法 是 分 帧 传输 

TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 


Cassandra.Client client - new Cassandra.Client(proto); 
tf.open(); 
client.set keyspace("Keyspace1"); 


String cfName - "Standard1"; 
byte[] userIDKey = "1".getBytes(); // 行 键 什 


Clock clock = new Clock(System.currentTimeMillis()); 








// 创 建 name 列 的 描述 
ColumnParent cp = new ColumnParent(cfName); 

















// 插 入 name 列 
LOG.debug("Inserting row for key " + new String(userIDKey)); 
client.insert(userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 


LOG.debug("Row insert done."); 





/** 进行 get 操 作 */ 





LOG.debug("Get result:"); 

// 读 取 这 行 的 所 有 列 

ColumnPath path = new ColumnPath(); 
path.column family - cfName; 
path.column = "name".getBytes(); 


























ColumnOrSuperColumn cosc - client.get(userIDKey, path, CL); 
Column column = cosc.column; 
LOG.debug(new String(column.name, UTF8) + " : " 
* new String(column.value, UTF8)); 
// get 完 成 


tr.close(); 


LOG.debug("All done."); 








这 里 ， 我 们 先进 行 了 一 次 插入 ， 以 便 可 以 取出 数据 。 我 们 创建 一 个 client 对 象 ， 并 调用 
方法 ， 这 个 方法 有 三 个 参数 ， 行 键 值 、 列 路 径 、 一 致 性 级 别 。 其 中 ， 列 路 径 设置 了 要 查 























在 本 例 中 ， 我 们 插入 了 name 





和 age 
两 个 列 ， 但 因为 列 路 径 只 指定 了 一 个 想 碍 询 的 列 ， 所 以 我 们 只 得 到 了 age 
。 输 出 结果 如 下 所 示 : 














:42,265 Inserting row for key 1 
:42, 273 Row insert done. 

:42, 273 Get result: 

:42,282 name : George Clinton 
:42,282 All done. 





7.8 数据 准备 











这 里 ， 我 们 使 用 命令 行 接口 来 创建 一 些 有 不 同 列 的 键 值 ， 以 便 后 面 查询 : 





[defaultQüKeyspacei1] set Standardi1['k1']['a']z'1' 


Value inserted. 
[defaultQKeyspace1] Standard1['k1']['b']-'2' 


Value inserted. 
[defaultQKeyspace1] Standardi1['k1']['c']-'3' 


Value inserted. 
[defaultQKeyspace1] Standardi['k2']['a']z'2.1' 


Value inserted. 
[defaultüKeyspace1] Standardi['k2']['b']z'2.2' 


现在 ， 我 们 有 两 行 数据 ， 第 一 行 有 三 列 ， 第 二 行 有 两 列 。 














7.9 切片 谓词 


切片 谓词 
(slice predicate) 可 以 用 于 读 和 写 操作 ， 是 用 于 指定 一 组 列 的 限定 词 。 你 可 以 使 
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简单 起 见 ， 我 使 用 了 包含 的 例子 。 但 是 ， 一 行 之 中 有 很 多 很 多 列 对 Cassandra 来 说 











要 使 用 切片 谓词 ， 首 先 要 创建 包含 你 想 获 取 的 列 名 的 谓词 对 象 ， 然 后 将 它 传 给 读 操 作 。 





7.9.1 使 用 get_slice 读 取 特 定 列 名 


如 果 你 希望 取出 一 行 中 名 叫 “a” 和 “b” 的 列 ， 可 以 使 用 指定 列 名 的 谓词 。 





使 用 get_slice 
操作 ， 可 以 取出 列 族 或 是 超级 列 中 的 一 组 列 。 它 会 根据 列 名 或 列 名 的 区 间 取 出 值 来 ， 返 
操作 的 声明 形式 如 下 : 


List get slice(byte[] key, 
ColumnParent column parent, SlicePredicate predicate, ConsistencyLevel cl) 


使 用 方法 如 例 7-3 所 示 。 








例 7-3: 
SlicePredicate.java 


package com.cassandraguide.rw; 


// imports 已 省 略 





public class SlicePredicateExample { 


public static void main(String[] args) throws Exception { 
Connector conn = new Connector(); 
Cassandra.Client client - conn.connect(); 


SlicePredicate predicate - new SlicePredicate(); 
List&ltbyte[]» colNames = new ArrayList&ltbyte[]»(); 
colNames.add("a".getBytes()); 


colNames.add("b".getBytes()); 


predicate.column names - colNames; 
ColumnParent parent - new ColumnParent("Standard1"); 


byte[] key = "ki1".getBytes(); 
List results - 
client.get slice(key, parent, predicate, ConsistencyLevel.ONE); 
for (ColumnOrSuperColumn cosc : results) ( 
Column c = cosc.column; 
System.out.println(new String(c.name, "UTF-8") +" : 
* new String(c.value, "UTF-8")); 


} 


conn.close(); 


System.out.println("All done."); 





在 这 个 例子 中 ， 只 有 指定 的 列 会 被 取出 ， 其 他 列 则 被 忽略 。 这 个 查询 返回 一 个 Column 


对 象 的 列表 。 因 为 我 们 知道 所 查询 的 是 普通 的 列 族 ， 所 以 直接 从 底层 RPC 机 制 CThrif 
数据 结构 中 取出 列 的 值 ， 最 后 在 一 个 循环 中 读 取 这 些 列 的 名 称 和 值 。 











例子 的 输出 如 下 所 示 : 





7.9.2 通过 切片 区 间 获 取 一 组 列 




















有 时 你 不 希望 指定 所 要 取出 的 每 个 列 ， 一 个 可 能 的 原因 是 要 取出 很 多 列 ， 也 有 可 能 是 因 ; 














要 读 取 一 行 中 一 个 指定 区 间 的 列 ， 可 以 指定 开始 和 结束 的 列 ，Cassandra 就 会 给 你 整个 








SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart("age".getBytes()); 


sliceRange.setFinish("name".getBytes()); 
predicate.setSlice range(sliceRange); 





friifiget slice 
操作 时 ， 查 询 会 返回 这 两 个 指定 的 列 ， 以 及 所 有 通过 比较 器 排序 比较 落 在 两 个 列 之 间 的 

















你 必须 根据 比较 器 来 给 出 列 名 ， 注意 开始 列 和 结束 列 的 顺序 。 比 如 ， 如 果 以 name 
列 开 始 、 以 age 
列 结束 ， 就 会 抛 出 一 个 异常 : 


InvalidRequestException(why:range finish must come after start in the order 
of traversal) 

















别 忘 记 了 ，“ 返 回 一 列 ” 并 非 意味 着 像 SQL 一 样 得 到 列 的 值 ， 而 是 得 到 完整 的 列 数 据 结 





计数 


可 以 使 用 Slice Range 
结构 的 计数 ‘count) 属性 来 限制 切片 区 间 返 回 行 的 数量 。 假 设 我 们 有 一 个 几 百 列 的 行 











Ne 

















SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart("a".getBytes()); 


sliceRange.setFinish("d".getBytes()); 
sliceRange.count - 10; 











再 强调 一 次 , “第 一 “ 列 要 依照 列 族 的 比较 器 指定 的 顺序 而 定 。 











逆序 





你 还 可 以 通过 设置 切片 区 间 的 reversed=true 
性 来 取出 呈现 逆序 的 列 。 如 果 有 age 

. email 

和 和 name 

三 个 列 ， 那 么 设置 reversed 

为 true 

， 得 到 的 列 的 顺序 就 是 name 

. email 

和 age 











"dni 








7.9.3 取出 一 行 中 的 所 有 列 





要 读 出 一 行 中 的 所 有 
列 ， 也 需要 使 用 有 切片 区 间 的 谓词 ， 但 只 要 给 区 间 的 起 始 和 结束 参数 一 个 空 字 节 数组 就 























SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(new byte[0]); 


sliceRange.setFinish(new byte[0]); 


predicate.setSlice range(sliceRange); 








然后 ， 就 可 以 把 这 个 增加 的 谓词 对 象 和 其 他 必要 参数 〈 如 一 致 性 级 别 之 类 的 ) 一 起 传 给 
操作 了 。 





7.10 get range slices 





类 似 于 使 用 区 间 来 访问 一 组 列 ， 我 们 也 可 以 访问 一 个 键 值 或 令 牌 区 间 。 可 以 把 一 个 Key 
对 象 传 给 一 个 get_range_slices 
操作 ， 来 定义 一 组 要 访问 的 键 值 。 











这 里 的 一 个 不 同 是 ， 作 为 get_range_s]ices 
的 参数 ，KeyRange 
数据 结构 可 以 指定 键 值 ， 也 可 以 指定 令 牌 。 键 值 区 间 包 含 开始 点 ， 而 令 牌 不 包括 开始 点 




















API 中 定义 了 get_range_slices 
操作 ， 其 操作 方式 大 致 如 下 : 





List&ltKeySlice» results = client.get range slices(parent, predicate, keyRange, 
ConsistencyLevel); 


例 7-4 给 出 了 一 个 完整 的 使 用 区 间 切 片 的 例子 。 


例 7-4: GetRangeSliceExample. java 


package com.cassandraguide.rw; 





//imports 已 省 略 




















public class GetRangeSliceExample { 


public static void main(String[] args) throws Exception { 
Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Getting Range Slices."); 


SlicePredicate predicate - new SlicePredicate(); 
List&ltbyte[]» colNames = new ArrayList&ltbyte[]»(); 
colNames.add("a".getBytes()); 
colNames.add("b".getBytes()); 





predicate.column names = colNames; 
ColumnParent parent - new ColumnParent("Standard1"); 


KeyRange keyRange - new KeyRange(); 
keyRange.start key = "ki".getBytes(); 
keyRange.end key = "k2".getBytes(); 


// 返 回 一 组 键 值 切 片 
List&ltKeySlice» results = 
client.get range slices(parent, predicate, keyRange, 
ConsistencyLevel.ONE); 





for (KeySlice keySlice : results) ( 
List&ltColumnOrSuperColumn» cosc - keySlice.getColumns(); 


System.out.println("Current row: " + 
new String(keySlice.getKey())); 


for (int i = 0; i &lt cosc.size(); i++) ( 
Column c - cosc.get(i).getColumn(); 


System.out.println(new String(c.name, "UTF-8") +" : " 
* new String(c.value, "UTF-8")); 


} 


conn.close(); 


System.out.println("All done."); 
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这 个 程序 假设 你 已 经 在 一 些 行 键 值 里 有 一些 数据 了 ， 见 7.8 节 。 





程序 的 输出 如 下 : 


Getting Range Slices. 
Current row: k1 
a:1 

b : 2 


Current row: k2 
a: 2.1 

b: 2.2 

All done. 





昌 然 名 称 中 包含 了 7 切片 ” (slice) MXE” (range) 两 个 词 ， 起 初 看 起 来 可 能 有 些 














7.11 multiget slice 


filiget slice 


， 可 以 根据 一 个 指定 的 行 键 值得 到 一 组 列 名 ， 而 使 用 multiget_slice 
则 可 以 根据 一 组 行 键 值 来 取出 一 组 列 ， 这 里 的 行 键 值 可 以 通过 一 个 column parent 和 
， 取 出 每 个 行 键 值 对 应 的 行 里 的 一 些 列 。 所 以 ，multget slice 的 意思 就 是 对 应 多 行 
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曾经 有 个 方法 称 为 multiget 


， 不 过 现在 已 经 推荐 用 multiget_slice 
AAT. 











multiget slice 
的 操作 方法 是 这 样 的 : 








Map&ltbyte[],List&ltColumnOrSuperColumn»» results = 
client.multiget slice(rowKeys, parent, predicate, CL); 











和 之 前 一 样 ， 要 指定 parent 和 谓词 ， 这 里 还 要 给 出 一 组 希望 查询 的 行 键 值 。 这 里 的 行 键 











返回 的 结果 类 型 是 Map&ltbyte[ ],List&]tColumnOrSuperColumn>> 
， 看 起 来 是 个 复杂 的 数据 结构 ， 不 过 实际 上 非常 简单 。Map 是 一 个 键 / 值 对 集合 ， 其 中 人 
键 值 指向 一 个 列表 ， 列 表 包 含 了 一 个 或 多 个 ColumnOrSuperColumn 

对 象 。 使 用 这 个 结构 是 因为 Thrift 不 支持 继承 。 你 必须 知道 列 族 的 类 型 是 Standar 
还 是 Super 


， 这 样 才能 从 中 得 到 正确 的 数据 对 象 。 在 我 们 的 例子 中 ， 你 可 以 从 ColumnOrSuper 
































中 取出 column&ltsuper_column 
是 空 的 ) ， 然 后 使 用 coLumn 对 象 读 取 名 和 值 。 如 果 需 要 ， 还 能 从 中 得 到 时 间 戳 。 








使 用 multiget slice 
的 例子 位 于 例 7-5 之 中 。 


例 7-5: MultigetSliceExample.java 





package com.cassandraguide.rw; 





//imports 已 省 略 




















public class MultigetSliceExample { 
private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 
private static final String columnFamily = "Standardi"; 


public static void main(String[] args) throws 
UnsupportedEncodingException, InvalidRequestException, 
UnavailableException, TimedOutException, 
TException, NotFoundException ( 


Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Running Multiget Slice."); 


SlicePredicate predicate - new SlicePredicate(); 
List&ltbyte[]» colNames = new ArrayList&ltbyte[]»(); 
colNames.add("a".getBytes()); 
colNames.add("c".getBytes()); 

predicate.column names - colNames; 


ColumnParent parent - new ColumnParent(columnFamily); 


























// 这 里 ， 不 是 指定 一 个 行 键 值 ， 而 是 指定 一 个 列表 
List&ltbyte[]» rowKeys = new ArrayList&ltbyte[]»(); 
rowKeys.add("k1".getBytes()); 
rowKeys.add("k2".getBytes()); 














// 返 回 的 结果 页 不 是 一 个 简单 的 列表 ， 而 是 一 个 映射 ， 其 中 的 键 值 是 行 键 值 

// 值 是 每 行 对 应 的 列 数组 

Map&ltbyte[],List&ltColumnOrSuperColumn»» results = 
client.multiget slice(rowKeys, parent, predicate, CL); 





for (byte[] key : results.keySet()) { 
List&ltColumnOrSuperColumn» row - results.get(key); 


System.out.println("Row " + new String(key) + " --» "); 
for (ColumnOrSuperColumn cosc : row) ( 

Column c - cosc.column; 

System.out.println(new String(c.name, "UTF-8") + " : " 


+ new String(c.value, "UTF-8")); 


} 
} 


conn.close(); 


System.out.println("All done."); 


} 
} 











数据 库 中 己 经 有 了 一 些 键 值 了 ， 我 尽量 保持 例子 的 简短 ， 以 使 数据 的 结构 形象 化 。 我 们 
和 C 

之 间 的 列 ， 不 过 只 对 a 

FIC 


两 列 有 兴趣 ， 所 以 要 指定 了 一 个 切片 谓词 来 指定 column_names 
限制 结果 。 我 们 还 希望 指定 不 止 一 行 的 内 容 ， 所 以 要 使 用 一 个 字 节 数列 表 来 指示 要 访问 





























上 述 代 码 的 运行 结果 如 下 所 示 : 


Running Multiget Slice. 
Row k2 --> 

a: 2.1 

Row ki --» 

a:1 

cig 

All done. 


可 以 看 出 ， 键 值 *k27 对 应 的 行 没 有 “c” 列 ， 所 以 Cassandra 不 会 返回 这 列 的 内 容 。 而 行 
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因为 我 们 使 用 了 Thrift 作 为 Cassandra 的 底层 通信 RPC 机 制 ， 返 回 的 结果 将 是 无 序 











7.12 删除 











(tombstone) 。 





幕 碑 是 一 个 删除 操作 发 起 的 特殊 标记 ， 作 为 一 个 占 位 符 ， 用 来 覆盖 删除 的 值 。 如 果 某 个 昌 
设置 的 时 间 (默认 是 10 天 ) ， 就 会 运行 一 次 压 紧 操作 ， 将 药 碑 垃圾 回收 ， 释 放 占 用 的 从 











itk, SSTable 是 不 可 修改 的 ， 所 以 数据 并 没有 在 SSTable 中 被 删除 。 在 压 紧 操 作 





这 里 的 假设 是 ， 压 紧 之 前 留 下 的 19 天 时 间 足 够 让 一 个 坏 节点 修复 上 线 了 。 如 果 你 乐意 ， 











我 们 来 运行 一 个 例子 ， 删 除 之 前 插入 的 数据 。 注 意 ，Cassandra 中 没有 “delete” 操 作 ， 
， 而 且 它 也 不 是 真 的 “ 移 除 ” (remove) 而 只 是 一 个 写 ( 墓 碑 标记 ) 操作 。 因 为 remov 








如 下 是 一 个 简单 的 删除 操作 : 


Connector conn = new Connector(); 
Cassandra.Client client - conn.connect(); 


String columnFamily - "Standard1"; 
byte[] key = "k2".getBytes(); // 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 
ColumnPath colPath - new ColumnPath(); 


colPath.column family - columnFamily; 
colPath.column - "b".getBytes(); 


client.remove(key, colPath, clock, ConsistencyLevel.ALL); 





System.out.println("Remove done."); 


conn.close(); 





7.13 批量 变更 


第 4 章 里 已 经 介绍 了 很 多 用 于 批量 插入 的 批量 变更 (batch mutate) 操作 ， 所 以 这 里 裔 








要 一 次 进行 大 量 的 插入 或 更 新 操作 ， 可 以 使 用 batch_mutate 

方法 ， 而 不 是 jnsert 

方法 。 和 关系 型 世界 中 的 批量 更 新 类 似 ，batch_mutate 

操作 允许 在 一 次 调用 中 ， 对 成 组 的 很 多 键 值 进 行 操作 ， 以 此 可 以 避免 多 次 操作 带 来 的 网 
在 一 系列 的 更 新 操作 中 的 某 一 个 发 生 了 失败 ， 不 会 被 退回 ， 所 以 任何 已 经 完成 的 更 新 操 
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操作 














曾经 有 一 个 称 为 Datch_insert 
的 操作 ， 不 过 已 经 不 推荐 使 用 了 。 





7.13.1 批量 删除 


第 4 章 的 应 用 中 并 没有 包含 任何 删除 操作 ， 所 以 这 里 多 介绍 一 些 。 


使 用 remove 
操作 可 以 删除 一 列 ， 而 使 用 batch_mutate 


和 Deletion 
结构 可 以 一 次 进行 一 组 复杂 的 删除 操作 。 











你 可 以 创建 一 个 列 名 的 列表 来 指示 要 删除 的 列 ， 之 后 将 它们 间接 地 传 给 batch_mutat 
。 这 里 说 是 “间接 “的 ， 是 因为 你 需要 创建 多 个 数据 结构 来 运行 删除 。 

















首先 ， 创 建 一 个 要 删除 的 列 名 的 列表 。 将 它 传 给 SlicePredicate 
， 再 将 Slice- Predicate 

传 给 Deletion 

对 象 ， 然 后 将 它 传 给 Mutation 

对 象 ， 最 后 再 将 Mutation 

对 象 传 给 batch_mutate 


o 











下 面 的 代码 简单 演示 了 如 何 进行 批量 删除 操作 。 首 先 创建 SlijcePredicate 
对 象 装载 要 删除 的 列 名 。 这 里 我 们 只 要 删除 “b” 列 。 然 后 创建 Deleteion 
对 象 ， 里 面 设置 这 个 谓词 ， 最 后 创建 Mutation 
对 象 ， 在 其 中 设置 这 个 Deletion 























一 旦 设置 好 了 Deletion 


对 象 ， 你 就 可 以 创建 变更 映射 。 这 个 映射 使 用 字 节 数组 键 值 指 向 所 要 进行 删除 的 行 。 你 
对 象 的 不 同 的 键 值 进行 批量 删除 操作 。 这 个 映射 的 值 是 一 个 内 层 的 映射 ， 这 个 映射 本 身 




















String columnFamily = "Standard1"; 
byte[] key = "k2".getBytes(); // 这 是 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 


SlicePredicate delPred 
List&ltbyte[]» delCols 





new SlicePredicate(); 
new ArrayList&ltbyte[]»(); 





























// 这 里 我 们 指定 列 "b"， 其 实 还 可 以 指定 更 多 
delCols.add("b".getBytes()); 
delPred.column names - delCols; 





Deletion 


deletion. 
deletion. 


Mutation 
mutation 


deletion - new Deletion(); 
predicate - delPred; 

clock - clock; 

mutation - new Mutation(); 


.deletion - deletion; 


Map&lt byte[], Map&lt String, List&lt Mutation»»» mutationMap = 
new HashMap&lt byte[], Map&lt String, List&lt Mutation»»»(); 


List&lt Mutation» mutationList = new ArrayList&lt Mutation»(); 
mutationList.add(mutation); 


Map&lt String, List&lt Mutation»» m = new HashMap&lt String, List&lt Mutation»»(); 
m.put(columnFamily, mutationList); 


// 就 改动 这 个 行 键 值 ， 虽 然 我 们 实际 可 以 改动 更 多 
mutationMap.put(key, m); 
client.batch mutate(mutationMap, ConsistencyLevel.ALL); 





还 有 一 种 方法 可 以 用 Deletion 
结构 来 指定 要 删除 的 项 目 : 使 用 SliceRange 


蔡 代 列 的 List 
， 这 样 就 可 以 删除 一 个 列 的 区 间 ， 而 不 需要 直接 地 列 出 列 的 名 字 了 。 


























7.13.2 区 间 鬼 影 


你 可 能 听 人 提 过 Cassandra 中 的 “区 间 鬼 影 ” (range ghost) 。 这 是 说 即使 你 删除 了 








7.14 编程 定义 keyspace 和 列 族 


现在 ， 你 也 可 以 通过 API 来 创建 keyspace 和 列 族 了 。 例 7-6 示 意 了 如 何 进 行 这 个 操作 。 


例 7-6: 











DefineKeyspaceExample.java 


package com.cassandraguide.rw; 




















//imports 已 省 略 


[EF 














* 演示 如 何 通 过 程序 定义 keyspace 和 列 族 


*/ 








public class DefineKeyspaceExample { 


public static void main(String[] args) throws 


UnsupportedEncodingException, InvalidRequestException, 
UnavailableException, TimedOutException, 


TException, NotFoundException, InterruptedException { 


Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Defining new keyspace."); 


KsDef ksdef - new KsDef(); 

ksdef.name = "ProgKS"; 

ksdef.replication factor - 1; 

ksdef.strategy class - 
"org.apache.cassandra.locator.RackUnawareStrategy"; 


List&ltCfDef» cfdefs = new ArrayList&ltCfDef»(); 
CfDef cfdef1 = new CfDef(); 

cfdefi.name = "ProgCF1"; 

cfdefi.keyspace - ksdef.name; 
cfdefs.add(cfdef1); 


ksdef.cf defs - cfdefs; 
client.system add keyspace(ksdef); 
System.out.println("Defining new cf."); 
CfDef cfdef2 = new CfDef(); 
cfdef2.keyspace - ksdef.name; 
cfdef2.column type - "Standard"; 
cfdef2.name - "ProgCF"; 


client.system add column family(cfdef2); 


conn.close(); 


System.out.println("All done."); 





7.15 小 结 

















本 章 中 ， 我 们 看 到 了 如 何 使 用 Cassandra 提 供 的 丰富 API 来 进行 各 种 数据 读 写 操作 。 





第 8 章 AP i 


我 们 过 去 使 用 驱动 来 连接 关系 型 数据 库 。 比 如 ， 在 Java 里 ，JDBC 是 抽象 了 不 同 厂商 数据 








Cassandra 有 一 些 不 同 ， 它 没有 驱动 。 如 果 你 决定 使 用 Python 和 Cassandra 交 互 ， 将 











使 用 这 些 客户 端的 好 处 是 ， 可 以 更 方便 地 将 它们 蔡 入 自己 的 应 用 中 去 《我 们 将 会 看 到 如 介 


在 下 面 的 章节 中 ， 我 们 首先 会 看 到 Thrift 和 Avro 是 如 何 工作 的 ， 它 们 如 何 用 于 Cassan 
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如 果 你 要 写 一 个 Cassandra 应 用 ， 应 该 使 用 一 个 客户 端 而 不 要 自己 写 底层 代码 。 唯 

















8.1 基本 的 客户 闹 API 





对 于 Cassandra 0.6 或 更 早 的 版 本 ，Thrift 是 全 部 客户 端 API 的 基础 。 而 在 0 ,7 版 本 叶 





在 本 书写 作 的 时 候 ， 还 不 知道 Thrift 和 Avro 可 以 一 起 被 支持 多 长 时 间 ， 两 者 都 在 当前 上 








8.2 Thrift 

















Thrift 是 一 个 驱动 层 接口 ， 它 提供 了 用 于 客户 端 使 用 多 种 语言 实现 的 API。Thrift 是 日 


Thrift 是 个 代码 生成 库 ， 支 持 的 客户 端 语言 包括 C++、C#、Erlang、Haskell、Jav 











要 使 用 Thrift， 要 使 用 一 个 语言 中 立 的 服务 定义 文件 ， 描 述 数据 类 型 和 服务 接口 。 这 个 
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你 可 以 阅读 Thrift 的 作者 写 的 这 篇 全 面 的 论文 来 了 解 Thrift 的 实现 ， 位 于 http 


o 














Thrift 的 设计 提供 了 以 下 这 些 特性 。 





语言 无 关 的 类 型 





因为 类 型 是 使 用 定义 文件 按照 语言 中 立 的 方式 规定 的 ， 所 以 它们 可 以 被 不 同 的 语言 


通用 传输 接口 


不 论 你 使 用 的 是 磁盘 文件 、 内 存 数据 还 是 socket 流 ， 都 可 以 使 用 同一 段 应 用 代码 。 





协议 无 关 


Thrift 会 对 数据 类 型 进行 编码 和 解码 ， 可 以 跨 协 议 使 用 。 





支持 版 本 





数据 类 型 可 以 加 入 版 本 信息 ， 来 文 持 客户 端 API 的 更 新 。 








Thrift 的 数据 定义 文件 使 用 .thrift 扩 展 名 。 在 Cassandra 源 码 目录 下 ， 有 一 个 目录 











// 数 据 结构 

struct Column { 
1: required binary name, 
2: required binary value, 
3: required i64 timestamp, 


j 


struct SuperColumn ( 
1: required binary name, 
2: required list&lt Column» columns, 


j 


// 蜡 常 
exception NotFoundException ( 


} 
// 其 他 














// 服 务 API 结 构 

enum ConsistencyLevel ( 
ZERO = 0, 
ONE - 1, 
QUORUM - 2, 
DCQUORUM - 3, 
DCQUORUMSYNC - 4, 
ALL = 5, 
ANY - 6, 


struct SliceRange ( 
1: required binary start, 
2: required binary finish, 
3: required bool reversed-0, 
4: required i32 count-100, 


j 


struct SlicePredicate ( 


1: optional list&lt binary» column names, 
2: optional SliceRange slice range, 


struct KeyRange { 
1: optional string start key, 
2: optional string end key, 
3: optional string start token, 
4: optional string end token, 
5: required i32 count-100 


} 
// 服 务 操作 
service Cassandra { 

# auth methods 

void login(1: required string keyspace, 2:required AuthenticationRequest 

auth_request) 
throws (1:AuthenticationException authnx, 
2:AuthorizationException authzx), 


i32 get_count(1:required string keyspace, 
2:required string key, 
3:required ColumnParent column parent, 
4:required ConsistencyLevel consistency level-ONE) 
throws (1:InvalidRequestException ire, 2:UnavailableException ue, 
3:TimedOutException te), 











// 其 他 





//meta-APIs 
/** 列 出 集群 中 定义 的 keyspace */ 
set&lt string» describe keyspaces(), 























// 其 他 





这 里 ， 我 使 用 了 一 些 有 代表 性 的 例子 ， 来 示意 Cassandra API 的 Thrift 定 义 文 件 的 构 








在 Cassandra 发 布 版 中 ， 包 含 .thrift 文 件 的 jnterface 文 件 夹 里 ， 还 有 一 个 叫做 th 











当 编 译 cassandra 的 时 候 ， 接 下 来 发 生 的 事情 是 这 样 的 。Ant 工 具 会 运行 如 下 的 目标 ， 











&lttarget name="gen-thrift-java"> 
&ltecho»Generating Thrift Java code from $[basedirj/interface/ 
cassandra.thrift 
....&lt/echo» 
&ltexec executable-"thrift" dirz"$[basedir) 
/interface"» 
&ltarg line="--gen java" /> 
&ltarg line-z"-o $[interface.thrift.dirj" /> 
&ltarg line-"cassandra.thrift" /> 
&lt/exec» 
&lt/target» 
&lttarget name-"gen-thrift-py"» 
&ltecho»Generating Thrift Python code from $[basedir) 
/interface/cassandra.thrift ....&lt/echo» 
&ltexec executable-"thrift" dir-"$([basedirj/interface"» 


&ltarg line="--gen py" /> 
&ltarg line-z"-o $[interface.thrift.dirj" /> 
&ltarg line-'"cassandra.thrift" /> 
&lt/exec» 
&lt/target» 
其 他 























这 些 Ant 目标 会 直接 调用 Thrift 程 序 ， 为 每 种 不 同 的 语言 传送 不 同 的 参数 。 注 意 ， 发 布 





要 生成 其 他 语言 的 Thrift 绑 定 ， 可 以 给 它 传 入 其 他 的 - -gen 
开关 (比如 thrift --gen php 
) 。 





这 些 Ant 目标 使 用 Cassandra 的 1ib 目 录 中 的 1Ibthrift-r917130.jar。 注 意 ，Thr 


8.2.1 Thrift 对 Java 的 支持 








要 编译 Thrift 的 Java 接 口 ， 进 入 到 目录 (thrift-home>/1ib/java。 在 终端 里 键入 
命令 来 运行 build .xml 脚 本 。 











客户 端 接口 可 能 会 抛 出 几 种 你 经 常 能 看 到 的 异常 。 下 面 列 出 了 一 些 基 本 异常 ， 解 释 了 你 ; 

















AuthenticationException 








用 户 使 用 了 错误 的 认证 信息 或 是 用 户 不 存在 。 








AuthorizationException 


用 户 存在 ， 但 没有 权限 访问 这 个 keyspace。 





ConfigurationException 
































当 一 个 类 装载 数据 库 描 述 符 时 无 法 找到 配置 文件 ， 或 配置 文件 是 错误 的 时 候 会 抛 出 











InvalidRequestException 











用 户 请 求 的 格式 不 正确 。 这 可 能 是 你 向 一 个 不 存在 的 keyspace 或 列 族 请 求 数据 ， 











NotFoundException 


用 户 请 求 了 一 个 不 存在 的 列 。 





TException 


当 调 用 了 一 个 对 服务 器 来 说 不 合法 的 Thrift 方 法 时 会 得 到 这 个 异常 。 这 个 异常 通 * 
是 无 法 捕捉 的 、 无 法 预见 的 异常 ， 服 务 器 端 会 弹出 这 个 异常 ， 然 后 中 断 当前 的 Th 





























TimedOutException 





啊 应 所 用 的 时 间 超 出 了 配置 的 极限 ， 默 认 极限 为 19 秒 钟 。 通 党 这 是 因为 服务 器 过 载 





UnavailableException 








cassandra 的 读 写 过 程 中 ， 响 应 的 副本 数 没 有 达到 要 求 的 数量 。 这 个 异常 不 通过 T 








四 




















8.2.3 Thrift 小 结 





如 果 你 希望 在 项 目 中 直接 使 用 Thrift， 那 么 在 Windows 上 使 用 时 有 一 些 先决 条 件 〈 参 











) ， 并 且 很 多 东西 都 可 能 出 错 。 这 部 分 因为 Thrift 本 身 还 太 年 轻 ， 在 传输 的 实现 上 有 4 有 








8.3 Avro 


Apache Avro 项 目 是 一 个 数据 序列 化 ， 是 针对 RPC 系 统 从 Cassandrag .7 版 本 开始 引入 











Avro 提供 很 多 和 Thrift 以 及 其 他 数据 序列 化 与 RPC 栅 





岂非 常 类 似 的 特性 ， 类 似 系统 还 














昌 健 的 数据 结构 ; 








用 于 RPC 调 用 的 高 效 的 、 节 省 空间 的 二 进 制 格式 ; 























Avro 有 几 个 Thrift 不 具备 的 优点 ， 特 别 是 应 用 的 RPC 不 需要 静态 代码 生成 ， 尽 
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易于 与 Python、Ruby、Smal1ltalk、Per1、PHP 和 0bjective-C 等 动态 类 型 语 


尔 


运行 Cassandra 的 Ant 文 件 时 ， 编 译 目标 会 在 调用 其 他 东西 的 同时 ， 调 用 avro- gene 
目标 ， 这 就 会 生成 Avro 接口 。 这 些 文件 和 Thrift 生 成 的 文件 一 样 ， 都 放 在 interfac 


"namespace":  "org.apache.cassandra.avro", 
"protocol": "Cassandra", 


"types": 
("name": "ColumnPath", "type": "record", 
"fields": [ 
("name": "column family", "type": "string 
[("name": "super column", "type": ["bytes" 





"a 


, "null"]j, 





("name": "column", "type": ["bytes", "null"]) 














] 
3 
("name": "Column", "type": "record", 
"fields": [ 
["name": "name", "type": "bytes"}, 
("name": "value", "type": "bytes"), 
["name": "timestamp", "type": "long") 
] 
}, 
{"name": "SuperColumn", "type": "record", 
"fields": [ 
[("name": "name", "type": "bytes"}, 
("name": "columns", "type": ["type": "array", "items": 
"Column")) 
] 
3 
// 其 他 
} 
]; 
"messages": { 
"get": { 
"request": [ 
{"name": "keyspace", "type": "string"), 


("name" : "key", "type": "string"), 
("name": "column path", "type": "ColumnPath"), 
("name": "consistency level", "type": "ConsistencyLevel") 


"response": "ColumnOrSuperColumn", 
"errors": ["InvalidRequestException", "NotFoundException", 
"UnavailableException", "TimedOutException"] 
i 
"insert": ( 
"request": [ 
("name": "keyspace", "type": "string"), 
("name" : "key", "type": "string"}, 
("name": "column path", "type": "ColumnPath"), 
("name": "value", "type": "bytes"), 


("name": "timestamp", "type": "long"), 

("name": "consistency level", "type": "ConsistencyLevel") 
]; 
"response": "null", 


"errors": ["InvalidRequestException", "UnavailableException", 
"TimedOutException"] 











// 其 他 











JSON 格 式 非 常 简 洁 易 懂 。 比 如 ， 可 以 看 到 至 少 有 两 类 消息 : 一 类 表示 取出 请 求 ， 其 他 代 








每 种 异常 的 含义 已 经 在 8 .2 节 讨 论 过 了 。 





8.3.1 Avro Ant H$% 





Cassandra 的 build.xml 文 件 定义 了 两 个 Ant 目 标 ， 它 们 在 Cassandra 从 源码 开始 编 t 























&lt!-- 
生成 avro 代码 





- -> 
&lt target name="check-avro-generate 


" 

&lt uptodate property-z"avroUpToDate" 
srcfile-"$[interface.dirj/cassandra.avpr" 
targetfile-"$[interface.avro.dirj/org/apache/cassandra/avro/ 

Cassandra.java" /» 
&lt taskdef namez"protocol" 
classname-"org.apache.avro.specific.ProtocolTask'» 

&lt classpath refid-'cassandra.classpath" /> 

&lt /taskdef» 
&lt taskdef name-"schema 


" classname-"org.apache.avro.specific.SchemaTask"» 
&lt classpath refid-'cassandra.classpath" /> 
&lt /taskdef» 
&lt taskdef namez"paranamer 


classname-z'"com.thoughtworks.paranamer.ant.ParanamerGeneratorTask"» 
&lt classpath refid-'cassandra.classpath" /> 
&lt /taskdef» 
&lt /target» 


&lt target name-"avro-generate 


" unless-"avroUpToDate" 
dependsz"init,check-avro-generate'» 

&lt echo»Generating avro code...&lt/echo» 

&lt protocol destdir-"$[interface.avro.dirj"» 
&lt fileset dir-"$[interface.dirj"» 

&lt include namez"**/*,avpr" /> 

&lt /fileset» 

&lt /protocol» 


&lt schema destdir-"$[interface.avro.dirj"» 
&lt fileset dir-"$[interface.dirj"» 
&lt include namez"**/*.avsc" /> 


&lt /fileset» 
&lt /schema» 
&lt /target» 


生成 Thrift 接 口 的 Ant 任 务 是 直接 调用 Thrift 可 执行 文件 《和 命令 行 执行 是 一 样 的 ) ， 
目标 使 用 了 一 个 称 为 avroUpToDate 

的 自 定义 属性 。avro-generate 

目标 运行 之 前 ， 必 须 由 check-avro-generate 

任务 先 确定 所 有 文件 更 新 到 最 新 版 本 后 设置 这 个 变量 。 如 果 生 成 的 客户 端 API 文 件 没有 
文件 表示 运行 时 的 Java Avro 接 口 。 












































Ant 的 <taskdef> 
标签 定义 了 其 后 的 目标 可 以 运行 的 自 定 义 任务 。 这 里 我 们 有 两 个 自 定义 任务 : Schem 
和 ParanamerGeneratorTask 


. SchemaTask 
是 Avro 本 身 的 一 部 分 ， 用 于 针对 所 描述 的 协议 生成 Java 接 口 和 类 。ParaNamer 库 〈p 

















8.3.2 Avro 规范 











Avro 项 目 定 义 了 一 个 规范 ， 理 论 上 说 ， 你 可 以 根据 规范 写 自 己 的 实现 。Avro 支 持 六 种 
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如 果 你 感 兴 趣 的话 ， 可 以 阅读 http://avro.apache.org/docs/current/spe 
的 完整 Avro 规 范 ， 不 过 ， 要 使 用 Cassandra 并 不 需要 这 样 做 。 








Avro 的 定义 使 用 JavaScript 对 象 标 记 (JSON) ， 以 schema 的 方式 写成 。 这 一 点 和 Th 


8.3.3 Avro 小 结 


在 Cassandra 0.7 版 本 中 ，Avro 是 它 的 RPC 和 数据 序列 化 机 制 。 它 会 生成 用 于 远程 客 


关于 Avro 的 更 多 信息 ， 可 以 参考 它 的 Apache 项 目 页 面 : http://avro.apache.org 





8.4 Git 简 介 


Cassandra 并 不 直接 使 用 Git， 但 了 解 一 点 Git 至 少 对 你 使 用 那些 用 了 Git 的 客户 端 有 者 











下 面 这 些 我 们 将 要 一 一 了 解 的 客户 端 都 在 使 用 Git: webi. Hector, Pelops iý 











要 得 到 一 个 6it 项 目的 代码 的 最 简单 方法 是 找到 项 目的 6itHub 主 页 ， 单 击 “Download | 





a 
"us 


如 果 你 在 使 用 Linux 发 布 版 ， 比 如 Ubuntu， 安 装 Git 非 常 简单 。 只 要 打开 终端 ， 输 








， 就 会 安装 好 6it 供 你 使 用 。 








如 果 你 需要 修改 项 目 源 代码 (比如 创建 一 个 分 支 项 目 ) ， 就 需要 使 用 Git 客 户 端 。 如 果 从 





.../gitrep»git clone http://github.com/suguru/cassandra-webconsole.git 
Initialized empty Git repository in C:/git/cassandra-webconsole/.git 
remote: Counting objects: 604, done. 

remote: Compressing objects: 100% (463/463), done. 

remote: Total 604 (delta 248), reused 103 (delta 9) 

Receiving objects: 100% (604/604), 6.24 MiB | 228 KiB/s, done. 
Resolving deltas: 100% (248/248), done. 


现在 ,我们 有 了 一 个 以 Git 项 目 命 名 的 子 目录 了 ， 这 样 束 可 以 编译 并 使 用 它 了 。 关 于 Git 
， 荔 一 个 网 站 http://gitref .org 
也 为 6it 初 学 者 提供 了 不 错 的 参考 信息 。 





























8.5 连接 客户 端 节 点 





一 旦 设置 好 了 集群 ， 客 户 端 连接 到 哪个 节点 就 无 关 紧 要 了 。 因 为 Cassandra 节 点 是 对 称 

















有 一 些 方法 可 以 让 一 切 组 织 得 更 为 有 序 和 高 效 。 








8.5.1 "Jm 


最 直接 的 连接 到 集群 的 方法 是 维护 一 个 服务 器 的 地 址 或 主机 名 的 列表 ， 并 在 客户 端 循 环 人 




















这 个 方法 的 好 处 是 易于 设置 ， 并 且 不 需要 任何 人 工 干 预 。 对 于 测试 而 言 ， 这 没有 问题 ， 





8.5.2 循环 DNS 








男 一 个 可 选 方案 是 创建 一 个 DNS 记录 来 代表 集群 中 的 一 组 服务 器 。 使 用 循环 DNS (round 


8.5.3 负载 均衡 器 

















第 三 个 方法 是 给 Cassandra 集 群 配备 一 个 负载 均衡 器 ， 配 置 所 有 客户 端 都 连接 到 它 。 负 











8.6 Cassandra Web 控 制 台 














Cassandra 有 一 个 Web 控 制 台 ， 由 Suguru Namura 提 供 ， 代 码 托 管 在 6itHub。 这 个 控 




















你 可 以 从 http://github.com/suguru/cassandra-webconsole 
下 载 控制 台 ， 作 为 一 个 WAR 来 运行 。 如 果 你 希望 修改 源 代码 ， 可 以 使 用 Git 来 创建 一 个 











让 我 们 来 简单 看 看 它 支持 的 特性 。 


keyspace 


制 台 允许 你 查看 keyspace 的 属性 ， 添 加 、 重 命名 和 删除 keyspace。 也 可 以 查 








列 族 





可 以 添加 或 删除 列 族 ， 查 看 它们 的 键 值 。 


环 


可 以 查看 系统 信息 ， 诸 如 运行 时 间 和 堆 内 存 占用 等 。 








Aa 


aa 
ON 本 
a 


如 果 你 在 同一 台 机 器 上 也 运行 了 Cassandra 实 例 ， 则 需要 修改 Tomcat 的 端口 ， 因 


















我 在 自己 的 机 器 上 启动 了 一 个 控制 台 ， 位 于 http://localhost:9999/cassandra- 
。 当 你 第 一 次 启动 控制 台 时 ， 会 看 到 一 个 界面 ， 让 你 输入 需要 连接 的 Cassandra 服 务 








分 帧 传输 与 缓存 传输 


有 两 种 用 于 连接 Cassandra 的 传输 类 型 可 供 选择 : 分 帧 传输 与 缓存 传输 。 分 帧 传输 











因为 你 需要 在 Cassandra 服 务 器 上 打开 这 一 文 持 ， 控 制 台 会 请 你 指定 使 用 哪 种 传输 六 





一 旦 连接 到 一 个 Cassandra 服 务 器 上 ，Web 控 制 台 就 会 读 取 它 的 配置 信息 ， 并 带 你 开始 








图 8-1 显 示 了 控制 台 自 己 的 配置 界面 。 图 8-2 展 示 了 控制 台 显示 的 keyspace 和 列 族 配 置 
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图 8-2: ”Web 控制 台 的 keyspace 和 列 族 信 息 界 面 





如 图 8-3 所 示 ， 添 加 一 个 列 族 或 超级 列 族 非常 简单 。 不 过 ，Web 控 制 台 还 不 能 像 你 所 希望 


ES 
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Comment Top Secret Stuff 


Column Type Super |% 


Comparator 
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Key Cache Size 200000 


Row Cache Size 
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图 8-3: ”通过 Web 控 制 台 添加 一 个 超级 列 族 








如 图 8-4 所 示 ， 你 还 可 以 在 Ring 界 面 看 到 服务 器 运行 多 长 时 间 了 、 消 耗 了 多 少 内 存 ， 以 
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图 8-4 : Ring 界 面 展示 了 系统 的 使 用 情况 





总 之 ，Web 控 制 台 提供 了 一 个 直观 而 有 吸引 力 的 界面 ， 让 Cassandra 的 基本 管理 任务 变 和 





8.7 Hector (Java) 





Hector 是 一 个 用 Java 语 言 编写 的 ， 在 MIT 许 可 证 下 发 布 的 开源 项 目 。Hector 由 Outbr 




















在 希腊 神话 中 ，Hector 是 特洛伊 城 的 建造 者 ， 也 是 一 位 出 色 的 武士 。 他 是 Cassand 








因为 Hector 是 Cassandra 的 第 一 个 客户 端 项 目 ， 也 因为 它 被 开发 者 们 非常 广泛 地 使 用 ， 











要 获取 Hector， 可 以 从 它 的 6itHub 站 点 http://github.com/rantav/hector 


克隆 它 。 如 果 你 希望 获取 源 代码 ， 使 用 git 
命令 即 可 。 如 果 只 需要 二 进 制 包 ， 可 以 直接 从 Download 标 签 下 载 。 








8.7.1 特性 


Hector 是 一 个 很 受 支 持 的 、 全 功能 的 Cassandra 客 户 端 ， 有 很 多 用 户 和 活跃 的 社区 。 





面向 对 象 的 高 级 API 











Java 开 发 者 可 以 使 用 Hector 提 供 的 Keyspace、Column 等 接口 ， 非 常 符合 











故障 恢复 支持 











Thrift 不 支持 失败 的 客户 端 ， 因 为 Cassandra 倾 向 于 用 在 一 个 高 度 分 布 化 的 模式 


连接 池 














Cassandra 特 别 为 高 可 扩展 性 而 设计 ， 相 应 地 ， 这 也 要 求 客户 端 应 该 文 持 连接 池 ， 





JMX 文 持 





cassandra 大 量 使 用 了 JMX， 这 对 于 监控 来 说 非常 方便 。Hector 直 接 通过 暴露 规 








8.7.2 Hector API 


下 面 是 Ran Tavory 的 博客 上 (http://prettyprint.me 
) 的 用 于 演示 Hector 如 何 简 化 Cassandra 使 用 的 例子 : 








// 创建 一 个 cluster 

Cluster c = HFactory.getOrCreateCluster("MyCluster", "cassandra1:9160"); 
// 选择 一 个 keyspace 

KeyspaceOperator ko = HFactory.createKeyspaceOperator("Keyspaced1", c); 
// 选择 一 个 字符 串 提 取 器 

se se = StringExtractor.get(); 








// 插入 值 
Mutator m = HFactory.createMutator(keyspaceOperator); 
m.insert("key1", "ColumnFamily1", createColumn("columni", "valuei1", se, se)); 


// 现在 ， 读 一 个 值 

// 创建 一 个 查询 

ColumnQuery&lt 2n String» q = HFactory.createColumnQuery(keyspace- 
Operator, se, se); 

// 设置 键 值 、 列 名 、 列 族 名 ， 然 后 执行 

Result&lt HColumn&lt String, String»» r = q.setKey("key1").setName("columni"). 
setColumnFamily("ColumnFamily1").execute(); 








// 从 结果 中 读 取 值 

HColumn&lt String, String» c = r.get(); 
String value = c.getValue(); 
System.out.println(value); 





8.8 HectorSharp(C#) 


HectorSharp 是 Ran Tavory 的 Java 客 户 端 Hector 的 C# 语 言 移植 版 本 (Tavory 也 是 





具有 直观 的 、 面 向 对 象 接口 的 高 级 客户 端 ; 





客户 靖 的 故障 恢复 ; 





负载 均衡 。 





我 们 来 看 看 如 何 使 用 HectorSharp 作 为 Cassandra 接 口 ， 如 何 创建 一 个 应 用 。 这 大 概 





a 
TA 


在 本 书写 作 时 ，HectorSharp 是 对 应 于 Cassandra 0.6 而 非 0.7 的 1 





译注 1: 这 个 项 目 似乎 从 2016 年 5 月 至 今 都 没有 更 新 过 了 。 























HectorSharp 的 代码 可 以 使 用 6it 从 http://github.com/mattvv/hectorsharp 
获得 。 记 住 ， 要 想 方 便 地 通过 Git 获 取 源 代码 ， 打 开 终 端 并 进入 所 希望 项 目 目 录 的 父 目 


>git clone http://github.com/mattvv/hectorsharp.git 























获取 代码 之 后 ， 需 要 确认 安装 了 .NET Framework 3.5 或 更 新 的 版 本 ， 可 以 从 微软 的 
下 载 Visual Studio C# Express， 软 件 的 安装 可 能 会 需要 一 点 时 间 ， 并 需要 重启 it 














装 好 Visual Studio 之 后 ， 打 开 HectorSharp 项 目 ， 就 可 以 看 到 项 目的 源 代码 ， 并 把 








在 项 目 浏览 器 窗口 ， 右 键 单 击 HectorSharp， 从 源码 编译 HectorSharp。 你 可 以 在 左 





要 创建 一 个 使 用 HectorSharp 的 应 用 ， 选 择 File>New Project...»Console App 











现在 ， 我 们 要 引用 HectorSharp.dll， 这 样 才能 用 这 个 类 。 要 做 到 这 点 ， 可 以 选择 Pr 





aa 
W 


我 把 应 用 的 名 称 修改 为 CassandraProgram.cs 了 。 如 果 你 也 要 这 么 做 ， 应 该 通过 i 


























让 我 们 来 简单 地 看 一 下 HectorSharp 提 供 的 一 些 高 级 结构 。 





ICassandraClient 














这 个 接口 由 HectorSharp 客 户 端 对 象 使 用 ， 实 现 类 型 一 般 为 KeyedCassandr 


Pool 








HectorSharp poo1 是 它 到 Cassandra 的 连接 ， 可 以 使 用 一 个 工厂 方法 创建 poo 
。 然 后 使 用 pool， 可 以 创建 Client。 








Client 














通过 连接 池 ， 你 可 以 获取 用 于 连接 到 Cassandra 的 客户 端 。 用 法 非常 简洁 : 





Client = new KeyedCassandraClientFactory( 
Pool, 


new KeyedCassandraClientFactory.Config { Timeout = 10 }) 
.Make( new Endpoint("localhost", 9160) ); 























首先 把 poo1 传 入 到 client 的 工厂 方法 ， 然 后 指定 附加 的 配置 细节 〈 比 如 超时 的 秒 数 ) ， 
为 10 秒 〈 默 认为 20 秒 ) 。 





Keyspace 


从 Client 
对 象 获得 的 Cassandra 的 keyspace。 它 允许 你 指定 要 连接 的 keyspace 的 名 字 

















Keyspace = Client.GetKeyspace( 
"Keyspace1", 


ConsistencyLevel.ONE, 
new FailoverPolicy(0) { Strategy = FailoverStrategy.FAIL FAST )); 





FailoverPolicy 
类 人 允许 你 指定 如 果 HectorSharp 遇 到 通信 错误 《而 非 应 用 错误 ) 时 应 该 如 何 处 理 


























上 
~ 
on 








ColumnPath 


ColumnPath 
是 一 个 简单 地 包装 ， 人 允许 你 更 容易 地 引用 整个 列 族 、 特 定 列 族 中 的 超级 列 ， 或 是 

















HectorSharp 使 用 了 7“ 四人帮 "的 Command 模 式 ， 用 于 数据 访问 对 象 (DAO) ， 因 为 这 


JER 

* 取 一 个 字符 串 值 ， 

* Qreturn 字符 串 值 ， 如 果 给 定 键 的 值 不 存在 则 返回 nu11。 
*/ 

public String get(String key) 

















{ 


return execute(new Command&ltString»()1 
public String execute(Keyspace ks) { 
try ( 
return string(ks.getColumn(key, createColumnPath(COLUMN NAME)).getValue()) 
} catch (NotFoundException e) { 


return null; 
} 
} 





3); 
} 


protected static &ltT» T execute(Command&ltT» command) 


{ 
return command.execute(CASSANDRA HOST, CASSANDRA PORT, CASSANDRA KEYSPACE); 


} 





get 


命令 使 用 了 参数 化 的 exXecute 
方法 ， 其 他 类 似 命 令 还 可 以 用 于 插入 和 删除 (例子 中 没有 给 出 )。 对 于 我 们 的 应 用 来 说 











最 终 ， 我 们 已 经 准备 就 绕 ， 可 以 开始 写 代码 了 。 你 的 应 用 应 该 类 似 例 8-1 中 的 代码 。 


例 8-1: CassandraProgram.cs 





using System; 

using HectorSharp; 

using HectorSharp.Utils; 

using HectorSharp.Utils.ObjectPool; 


JER 
* 一 些 C# 应 用 将 会 采用 HectorSharp 作 为 高 级 Cassandra 客 户 端 。 
*/ 




















namespace ExecuteHector 
t 
class CassandraProgram 
t 
internal ICassandraClient Client; 
internal IKeyspace Keyspace; 
internal IKeyedObjectPool&ltEndpoint, ICassandraClient» Pool; 


static void Main(string[] args) 


t 


CassandraProgram app = new CassandraProgram(); 


Console.WriteLine("Starting HectorSharp..."); 
app.Pool - new CassandraClientPoolFactory().Create(); 
Console.WriteLine("Set up Pool."); 
app.Client - new KeyedCassandraClientFactory(app.Pool, 
new KeyedCassandraClientFactory.Config { Timeout = 10 Jj) 
.Make(new Endpoint("localhost", 9160)); 
Console.WriteLine("Created client."); 


app.Keyspace - app.Client.GetKeyspace( 
"Keyspace1", 


ConsistencyLevel.ONE, 
new FailoverPolicy(0) ( Strategy = FailoverStrategy. 
FAIL FAST 3); 

Console.WriteLine("Found keyspace " + app.Keyspace.Name); 









































// 设置 要 使 用 的 列 路 径 
var cp = new ColumnPath("Standard1", null, "MyColumn"); 


// 写 值 

Console.WriteLine("NnPerforming write using " + 
cp.ToString()); 

for (int i = 0; i &lt 5; i++) 





{ 
String keyname = "key" + i; 
String value = "value" + i; 
app.Keyspace.Insert(keyname, cp, value); 
Console.WriteLine("wrote to key: " + keyname + 

" with value: " + value); 
j 
// HB 


Console.WriteLine("NnPerforming read."); 
for (int i = 0; i &lt 5; i++) 


{ 
String keyname = "key" + i; 
var column = app.Keyspace.GetColumn(keyname, cp); 
Console.writeLine("got value for " + keyname +" =" + 
column.Value); 
} 


Console.WriteLine("All done."); 











通过 选择 Debug > Build Solution 来 编译 这 段 代 码 ， 成 为 一 个 控制 台 应 用 。 




















现在 我 们 可 以 测试 一 下 程序 了 。 打 开 一 个 终端 ， 向 往常 一 样 启动 Cassandra: >bin\c 


。 现 在 ， 再 打开 一 个 终端 ， 进 入 ExecuteHector 项 目的 目录 ， 然 后 进入 bin\Releas 
即 可 。 你 将 会 看 到 类 似 下 面 的 输出 : 














C:\git\ExecuteHector\bin\Release>ExecuteHector .exe 
Starting HectorSharp... 

Set up Pool. 

Created client. 

Found keyspace Keyspacei 


rog 


Performing write using ColumnPath(family: 'Standardi1', super: , column: 
'MyColumn' 

wrote to key: keyO with value: valueO 

wrote to key: key1 with value: value1 

wrote to key: key2 with value: value2 

wrote to key: key3 with value: value3 

wrote to key: key4 with value: value4 


Performing read. 


got value for keyO - valueO 
got value for key1 = Value1 
got value for key2 - value2 
got value for key3 = Value3 
got value for key4 - value4 


All done. 


C:NgitNExecuteHectorNbinNRelease- 











可 以 看 到 ， 如 果 要 创建 一 个 C# 应 用 ， 并 希望 使 用 Cassandra 作 为 后 端 数 据 库 ， 从 Hecto 


你 可 以 在 http://hectorsharp,com 
更 多 地 了 解 HectorSharp 项 目 。 








8.9 Chirper 


如 果 你 是 一 个 ,NET 开 发 者 ， 可 能 会 对 Chirper 感 兴趣 。Chirper 是 Twissandra 的 一 -人 
。 你 可 以 在 http://www.javageneration.com/?p=318 
读 到 一 篇 介绍 chirper 的 博客 。 








8.10 Chiton (Python) 


ChitoniéBrandon WilliamsHiPython GTK 框 架 写 的 一 个 Cassandra 浏 览 器 。 你 可 
下 载 这 个 项 目 。 它 有 一 些 依赖 环境 ， 所 以 需要 一 些 配置 才能 使 用 。 要 使 用 Chiton， 系 

















Python 2 .5 或 更 新 的 版 本 ; 





Twisted Python (一 个 事件 驱动 的 Python 网 络 接口 )， 可 以 在 http://twist 
找到 ; 


Thrift (0.2); 





PyGTK 2.14 或 更 新 的 版 本 (一 个 Python 图 形 界面 库 ) 可 以 在 http://www.py 
获得 。 它 还 依赖 于 GTK+， 如 果 你 使 用 Linux， 应 该 已 经 安装 了 GTK+ 了 ; mium 





8.11 Pelops (Java) 





Pelops 是 由 Dominic Wil1iams 开 发 的 一 个 免费 、 开 源 的 Java 客 户 端 。 它 类 似 于 Hec 

















创建 一 个 简单 、 易 于 使 用 的 客户 端 ; 




















把 数据 处 理 的 考虑 与 诸如 连接 池 之 类 的 底层 元 素 分 离开 ; 














更 紧密 地 跟 上 Cassandra 的 开发 ， 保 持 最 新 。 

















Pelops 的 API 比 使 用 Thrift 或 Avro 暴露 出 来 的 底层 API 要 简单 得 多 。 要 写 入 数据 ， 只 
类 ， 要 读数 据 ， 只 需要 使 用 Selector 
。 下 面 是 Williams 的 网 站 上 的 一 个 简单 例子 ， 创 建 一 个 连接 到 一 组 Cassandra 服 务 

















Pelops.addPool( 
"Main" I 
new String[] { "cassi.database.com", "cass2.database.com", "cass3.database.com") 


了 


new Policy()); 


Mutator mutator - Pelops.createMutator("Main", "SupportTickets"); 























UuidHelper.newTimeUuidBytes(), // 使 用 一 个 时 间 排 序 的 UUID 值 
mutator.newColumnList( 
mutator.newColumn("category", "videoPhone"), 
mutator.newColumn("reportType", "POOR PICTURE"), 
mutator.newColumn("createdDate", NumberHelper.toBytes(System. 
currentTimeMillis())), 
mutator.newColumn("capture", jpegBytes), 





mutator.newColumn("comment") )); 
mutator.execute(ConsistencyLevel.ONE); 


这 可 比 直接 使 用 Cassandra API 的 用 法 简单 多 了 。 





你 可 以 从 http://code.google.com/p/pelops 
获得 项 目的 源 代 码 ， 还 可 以 在 Dominic Williams 的 网 站 http://ria101 .wordpr 








如 果 你 要 在 一 个 Java 应 用 中 使 用 Cassandra， 我 建议 尝试 一 下 Pelops。 








8.12 Kundera (Java ORM) 


Kundera 是 一 个 使 用 Java 注 记 (annotation) 5"JXJCassandrallx] £ X zsmiu] six 
， 以 Apache 2.9 许 可 证 发 布 。 按 照 其 作者 Impetus Labsi, Kundera HERA 














让 使 用 Cassandra 变 得 极其 简单 和 有 趣 。Kundera 不 会 毫 无 意义 地 重 做 另外 一 个 客 





Kundera 底 层 使 用 Pelops。 一 个 简单 的 Java 实 体 bean 会 类 似 这 样 : 





QEntity 
QColumnFamily(keyspace = "Keyspacei", family = "Band") 
public class Band ( 
@Id 
private String id; 
QColumn(name = "name") 
private String name; 
QColumn(name = "instrument") 
private String instrument; 





你 可 以 进行 一 个 这 样 的 JPA 查 询 : 





Query query = entityManager.createQuery("SELECT m from Band c where 
name-'george'"); 


List&ltSimpleComment» list = query.getResultList(); 





在 本 书写 作 时 ， 这 个 库 还 相当 新 ， 看 不 出 来 是 否 已 经 一 切 就 绪 可 以 使 用 了 。 不 过 ， 它 还 胡 





8.13 Fauna (Ruby) 





Twitter 的 Ryan King 以 及 Evan Weaver 创 建 了 一 个 cassandra 数 据 库 的 Ruby 客 户 





8.14 小 结 











现在 ， 你 已 经 了 解 了 各 种 Cassandra 的 客户 端 接口 ， 以 及 如 何 安装 使 用 这 些 客户 端 。 有 








本 章 讨论 使 用 各 种 不 同 的 工具 对 Cassandra 进 行 监控 ， 并 了 解 Cassandra 集 群生 命 周 期 
































此 外 ，Cassandra 还 提供 了 内 建 的 Java 管 理 扩 展 (JMX) 的 支持 ， 这 让 你 对 Cassandr; 

















最 简单 的 了 解 当前 数据 库 运 行 状 况 的 方式 就 是 修改 日 志 级 别 ， 来 输出 更 详细 的 日 志 信息 。 


Cassandra 使 用 Log4J 来 输出 日 志 。 





默认 情 


青 况 下，Cassandra 服 务 器 的 日 志 级 别 是 INF 





INFO 08:49:17,614 Saved Token found: 94408749511599155261361719888434486550 
INFO 08:49:17,614 Saved ClusterName found: Test Cluster 

INFO 08:49:17,620 Starting up server gossip 

INFO 08:49:17,655 Binding thrift service to morpheus/192.168.1.5:9160 

INFO 08:49:17,659 Cassandra starting up... 


当 在 终端 里 启动 Cassandra 的 时 候 ， 可 以 使 用 程序 的 - 千 
参数 〈 保 持 输出 在 终端 窗口 前 台 可 见 ) 让 日 志 输 出 到 这 个 终端 窗口 中 来 。 不 过 ，Cassal 





通过 把 日 志 级 别 改 为 DEBUG 








要 修改 日 志 级 别 ， 打 开 /conf/10g4j-server .properties， 并 在 其 中 找到 这 术 





， 我 们 可 以 看 到 非常 多 的 服务 器 工作 的 情况 ， 而 不 只 是 状态 的 更 新 。 





10g4j.rootLogger-INFO,stdout,R 


改 成 这 个 样子 : 





log4j.rootLogger-DEBUG 


,Stdout, 











当然 


然 ， 在 生产 环境 中 ， 你 可 


-E 


JA 


H 


KA 


1 调 到 WARN 或 是 ERROR， 因 为 过 繁琐 的 输 


现在 我 们 可 以 看 到 Cassandra 运 行 的 很 多 细节 了 : 


INFO 09:41:54,936 Completed flushing /var/lib/cassandra/data/system/ 
LocationInfo-8-Data.db 
DEBUG 09:41:54,942 Checking to see if compaction of LocationInfo would be 


useful 


DEBUG 09:41:54,942 discard completed log segments for CommitLogContext 
(filez'/var/lib/cassandra/commitlog/CommitLog-1277397714697.109g',... 
INFO 09:41:54,943 Compacting [org.apache.cassandra. 
io.SSTableReader(path-z'/var/lib/cassandra 
DEBUG 09:41:54,943 Marking replay position 121 on commit log CommitLogSegment 
(/var/lib/cassandra/commitlog/CommitLog-1277397714697.109)... 


DEBUG 
DEBUG 
DEBUG 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
DEBUG 


09 
09 
09 
09 
09 
09 
09 


:41 


:41 


:41: 


54, 985 
55, 009 
55,010 


:55, 016 
:41: 


55,048 


:55,051 
:41: 


55,112 


compacted 


09 
09 
09 
09 
09 
09 
09 
09 
09 
09 


:41 


:41 


09:41 


:41: 


55, 117 


:55, 117 
:41: 
:41: 
:41: 
:41: 


55,117 
55,118 
55,118 
55,118 


:55, 118 
:41: 
:41: 
:41: 


55,118 
55,119 
55,119 


:56, 023 


80756296 used; 
max is 1177812992 


DEBUG 09:41: 
DEBUG 09:41: 


56,035 
57,025 


Log replay 


complete 


09:41:54,943 index size for bloom filter calc for file 
/var/lib/cassandra/data/system/LocationInfo-5-Data.db 
09:41:54,944 index size for bloom filter calc for file 
/var/lib/cassandra/data/system/LocationInfo-6-Data.db 
09:41:54,944 index size for bloom filter calc for file 
/var/lib/cassandra/data/system/LocationInfo-7-Data.db 
:41: 
:41: 


256 


512 


768 


Saved Token found: 94408749511599155261361719888434486550 
Saved ClusterName found: Test Cluster 

Starting up server gossip 
Binding thrift service to morpheus/192.168.1.5:9160 
Cassandra starting up... 
Marking /var/lib/cassandra/data/system/LocationInfo-5-Data.db 


Estimating 
Estimating 
Estimating 
Estimating 
Estimating 
Estimating 
Estimating 


Checking to see if compaction 
Checking to see if compaction 
Checking to see if compaction 


GC for ParNew: 1 ms, 


compactions 
compactions 
compactions 
compactions 
compactions 
compactions 
compactions 


for 
for 
for 
for 
for 
for 
for 


14643776 


Superi 

Standard2 

Super2 

Standardı 

StandardByUUID1 

LocationInfo 

HintsColumnFamily 

of Superi would be useful 

of Standard2 would be useful 
of Super2 would be useful 


reclaimed leaving 


attempting to connect to lucky/192.168.1.2 
Disseminating load info 





你 可 以 精确 观察 到 Cassandra 在 什么 时 间 正 在 做 什么 ， 这 对 于 发 现 问题 非常 有 帮助 。 而 











如 果 你 希望 改变 日 志 的 位 置 ， 也 可 以 在 1og4j ,properties 文 件 里 找到 这 行 ， 并 修改 一 





10g4j.appender.R.File-/var/log/cassandra/system.log 


对 于 Windows 来 说 ， 这 个 条 目 是 一 样 的 。 在 Windows 里 ， 这 个 文件 将 自动 解析 成 C:Nva 








Aa 


ws 

as, 

COP E 
OSA 


如 果 在 这 个 路 径 找 不 到 日 志文 件 ， 请 确保 你 是 这 个 目录 的 属 主 ， 至 少 拥有 读 写 权限 。 
































注意 ， 这 个 位 置 是 用 于 记录 数据 库 的 行为 的 ， 而 非 记 录 Cassandra 的 内 部 数据 文件 的 。 


9.1.1 跟踪 查看 





要 看 到 滚动 输出 的 日 志文 件 ， 不 必 使 用 前 台 开 关 来 启动 Cassandra。 你 还 可 以 不 用 - 千 
选项 简单 地 启动 Cassandra 之 后 ， 使 用 tail 

来 看 日 志 。tail 

不 是 Cassandra 专 有 的 ， 在 所 有 Linux 发 布 版 中 都 有 这 个 实用 工具 ， 可 以 提供 这 种 功 
































要 跟踪 查看 日 志文 件 ， 直 接 这 样 启 动 Cassardrat: 


>bin/Cassandra 





然后 打开 第 二 个 控制 台 ， 输 入 tail 
命令 ， 把 你 希望 查看 的 文件 的 路 径 当做 参数 传 进去 ， 就 像 这 样 





tr 
m 


>tail -f /var/log/cassandra/system.log 


-f 
参数 的 意思 是 “跟踪 ”(follow) ， 随 着 Cassandra 向 日 志文 件 输出 信息 ，tail 
也 会 将 新 的 输出 显示 到 屏幕 上 来 。 要 想 终止 追踪 显示 日 志 ， 只 要 按 下 Ctr1l-C 就 行 了 。 





























fewindows 下 也 能 做 同样 的 事情 ， 但 是 Windows 本 身 并 不 提供 tail 
命令 。 所 以 ， 要 想 做 到 这 点 ， 需 要 下 载 安装 Cygwin， 这 是 一 个 Bash She11 模 拟 器 。 
获取 它 。 


























接 下 来 就 可 以 正常 启动 Cassandra， 然 后 使 用 这 个 命令 跟踪 查看 日 志文 件 了 : 


ebenQlucky-$ tail -f C:NNvarNNlogNNcassandraNNsystem.log 





羊 ， 日 志 信息 就 会 像 程 序 在 前 台 一 样 ， 输 出 到 控制 台 了 。 











eg 
m 


9.1.2 通用 技巧 


1. 跟踪 


一 旦 你 运行 了 一 个 打开 Debug 模 式 的 服务 器 ， 就 可 以 看 到 很 多 用 于 帮助 调试 的 详细 信息 。 


DEBUG 12:55:09,778 insert 

DEBUG 12:55:09,779 insert writing local key mycol 

DEBUG 12:55:36,387 get 

DEBUG 12:55:36,390 weakreadlocal reading SliceByNamesReadCommand( 


table-'Keyspacei1', key-z'mycol', 
columnParent-'QueryPath(columnFamilyName-'Standard1i', 
superColumnName-'null', columnName-'null')', 
columns-[6b6579393939,]) 








这 是 在 命令 行 执行 的 命令 和 相应 的 服务 器 输出 : 


cassandra> set Keyspacei.Standardi['mycol']['key999']-'value999' 
Value inserted. 

cassandra» get Keyspacei.Standardi['mycol']['key999'] 

=> (column-z6b6579393939 


, Value-value999, timestamp-1277409309778000 





注意 这 里 所 发 生 的 事情 。 我 们 在 名 为 Standard1 
的 列 族 里 插入 了 一 个 值 。 当 发 出 get 

请 求 时 ， 列 键 值 Key999 

转化 成 了 6b6579393939 

， 因 为 Standard1 

列 族 的 CompareWith 

属性 为 BytesType 


o 























与 此 不 同 ， 如 果 使 用 Standard2 

列 族 ， 我 们 将 看 到 日 志 中 的 列 名 就 是 所 输入 的 字符 串 ， 因 为 这 个 列 族 的 CompareWit 
属性 是 UTF-8 

。 这 次 我 们 写 入 并 取出 同样 的 值 。 命 令 行 的 输入 如 下 所 示 : 











cassandra> set Keyspacei.Standard2['mycol']['key888']-'value888' 
Value inserted. 
cassandra» get Keyspacei.Standard2['mycol']['key888'] 


=> (column-zkey888 


, Value-value888, timestamp-1277409950795000) 





相应 的 服务 器 日 志 如 下 : 





DEBUG 13:06:03,291 get 

DEBUG 13:06:03,292 weakreadlocal reading SliceByNamesReadCommand( 
table-'Keyspacei1', key-z'mycol', 
columnParent-'QueryPath(columnFamilyName-'Standard2', 
superColumnName-'null', columnName-'null')', 
columns-[keys888, ] 


) 


通过 这 个 例子 ， 你 应 该 已 经 充分 了 解 了 如 何 用 日 志 跟 踪 你 的 动作 产生 的 影响 。 








2. 人 危险 信号 














运行 Cassandra 的 时 候 ， 有 些 事情 值得 留心 。 比 如 ， 如 果 你 在 日 志 里 看 到 下 面 这 句 话 ， 











DEBUG 12:39:56,312 attempting to connect to mywinbox/192.168.1.3 














尝试 连接 本 身 没 什么 问题 ， 但 之 后 应 该 有 确认 连接 成 功 的 消息 。 这 样 的 消 轧 有 可 能 是 











BH 

















9.2 JMX 与 MBean 概 述 














本 节 中 ， 我 们 探索 Cassandra 如 何 使 用 Java 管 理 








扩展 CJMXO 来 进行 远程 服务 器 管理 。 























你 可 以 通过 查阅 java.1lang.management 


包 来 了 解 更 多 关于 JMX 实 现 的 细节 。 


























JMX 是 一 个 Java API， 它 通过 两 种 途径 提供 应 用 管理 功能 。 首 先 ，JMX 人 允许 你 了 解 应 用 


稽核 




















(instrumentation) 是 指 在 应 用 代码 周围 进行 一 层 封装 ， 让 应 用 代码 提供 一 些 钩子 


JMX 广 泛 应 用 于 各 种 应 用 的 监控 操作 ， 包 括 : 


检测 内 存 不 足 ， 包 括 堆 里 的 各 个 分 度 空间 尺 


线程 信息 ， 诸 如 和 死 锁 检 测 、 峰 值 线程 数 、 当 





详细 的 类 装载 信息 跟踪 ; 








y; 


前 线程 数 等 ; 


日 志 级 别 控制 ; 








通用 信息 ， 如 应 用 运行 时 间 、 当 前 的 classpath。 


很 多 流行 的 Java 应 用 都 使 用 JMX 进 行 稽核 ， 包 括 JVM 本 身 、 惠 普 的 0pen View. Oracl 


例如 ，WebLogic 服 务 通过 JMX 提 供 了 非常 广泛 的 行为 数据 。 比 如 ， 监 测 连 接 池 里 可 用 的 


图 9-1 中 提供 了 一 个 JMX 架 构 的 图 示 。 


被 稽核 的 Java 应 用 


稽核 
SNMP MIB 


Java 虚拟 机 





图 9-1: ”JMX 架 构 


JMX 的 架构 非常 简单 。JMX 通 过 底层 操作 系统 收集 信息 。JMX 本 里 是 被 稽核 的 ， 所 以 ， 它 





不 过 ， 对 于 一 个 给 定 的 程序 ， 你 只 能 管理 应 用 开发 者 提供 的 可 管理 的 东西 。 幸 运 的 是 ，C 


Java 应 用 的 稽核 是 通过 对 使 用 可 管理 bean， 


9.2.1 MBean 


可 管理 
bean (managed bean) ， 简 称 MBean， 


jconsole 


工具 是 标准 JDK 的 自 带 工具 。 它 提供 了 一 个 


x Java Monitoring & Management Console 








MBeans 


对 允许 JMX 加 钩子 的 应 用 代码 进行 包装 来 实 


是 一 种 特殊 的 Java _ bean， 用 于 表示 JVM 中 


Mr 


访问 MBean 的 图 形 化 界面 ， 并 可 以 文 持 本 地 









=) 9h HotSpotDiagnostic 
= Attributes 


-Attribute value 





DiagnosticOptions 
= Operations 
dumpHeap 






| [Name [Value 
PeakThreadCount 91 


| Refresh 











getvMOption 
setvMOption 
=] java lang 
+) ® ClassLoading 
+ @ Compilation 
+) GarbageCollector 







-MBeanAttnbuteinfo 











+) @® Memory 

+| MemoryManager 

+) MemoryPool 

四 | i OperatingSystem 
+] ® Runtime 





















false o | 


int 





=] fh Threading 
= Attributes 
ThreadContentionMonitonngEnabled 
DaemonThreadCount 













PeakThreadCount 








CurrentThreadCpuTimeSupported 
ObjectMonitorUsageSupported 
SynchronizerUsageSupported 
ThreadContentionMonitoringSupported 









ThreadCpuTimeEnabled 








AllThreadids 
CurrentThreadCpuTime 
CurrentThreadUserTime 
ThreadCount 
TotalStartedThreadCount 
ThreadCpuTimeSupported 
+ Operations 
=] java.util.logging 
| 全 @ Logging id 































Fa 


9-2: 


JConsole 显 示 Cassandra 守 护 程 序 的 峰值 线程 数 

















在 这 张 图 中 ， 可 以 看 到 JMX 提 供给 应 用 的 两 类 视图 : 每 个 程序 都 有 的 通用 的 线程 、 内 存 L 


Aa 
a s. 
te E 
uv 





JConsole 随 JDK 而 发 布 ， 且 易 于 使 用 ， 所 以 非常 流行 。 不 过 这 并 不 是 唯一 可 用 的 J 








应 用 程序 或 JVM 有 很 多 地 方 本 来 支持 稽核 ， 但 是 都 没有 打开 。 线 程 瓶颈 (Thread Cont 
是 另 一 个 有 用 而 昂贵 的 MBean 的 例子 。 





应 用 中 一 些 简 单 的 值 会 作为 属性 
暴露 出 来 。 一 个 例子 是 Threading>PeakThread- Count 
， 这 个 属性 直接 报告 MBean 存 储 的 应 用 的 峰值 时 刻 线程 数 。 通 过 刷新 可 以 查看 最 新 的 值 


—- 



































但 是 有 的 MBean 是 可 以 配置 的 。 这 些 MBean 会 提供 一 些 可 用 的 操作 给 JMX 代 型 


H, JURE ilc n 
， 来 检查 MBean 是 否 可 写 。 如 果 是 false， 你 就 会 看 到 一 个 提示 ， 告 诉 你 这 个 值 是 只 读 
bean 的 例子 。 








x java Monitoring & Management Console 





| Tang 
+) @ ClassLoading 


+) @ Compilation void 

+) GarbageCollector | setLoggerLevel| ( pO | String | ,pl | String 
中 之 Memory 人 一 -一 -一 
+ MemoryManager -MBeanOperationinfo 
+) MemoryPool 

+) 88 OperatingSystem 























* @ Runtime 
| i21 @ Threading 
+ Attributes 
=) Operations 
dumpAllThreads 
findDeadlockedThreads 
findMonitorDeadlockedThreads 
getThreadCpuTime 
getThreadinfo 
getThreadinfo 
getThreadinfo 
getThreadinfo I 
etThreadinfo Lo EE 
| esr | PA 
| resetpeakThreadCount 
|= java.util logging 
=) $$ Logging 
= Attributes 
LoggerNames 
= Operations 
| getLoggerLevel 
| etParentLoggerName 











| 
| 
| 四 org.apache.cassandra.concurrent 





| 四 org.apache.cassandra.db 
| org.apache.cassandra.gms 
R org.apache.cassandra.service 














il system. 











图 9-3: java.util.logging.Logger MBean 人 允许 你 设置 日 志 级 别 


注意 ， 参 数 名 对 JMX 客 户 端 是 不 可 见 的 ， 它 们 被 标记 为 p06 

pi 

之 类 的 名 字 。 这 是 因为 Java 编 译 器 在 编译 阶段 就 已 经 “忘记 ”参数 名 了 。 所 以 ， 要 了 解 
， 这 个 类 实现 了 一 个 称 为 java .util.logging.LoggingMXBean 


的 接口 ， 进 行 用 于 重 核 的 包装 。 要 找 出 参数 的 对 应 关系 ， 我 们 查看 了 这 个 类 的 JavaDo 
是 希望 设置 为 的 日 志 级 别 。 


Aa 


多 说 一 句 ， 如 果 应 用 没有 使 用 java.uitl.logging 
进行 日 志 的 话 ， 设 置 这 个 日 志 级 别 对 你 不 会 有 什么 帮助 。 这 里 只 是 把 它 当 做 一 个 例 


某 些 MBean 会 返回 一 个 javax .management .openmbean .CompositeDatasS 
类 型 的 属性 。 这 意味 着 ， 这 些 不 是 LoadedClassCount 

这 样 的 简单 地 可 以 在 一 个 域 里 显示 的 值 ， 而 是 多 个 值 。 一 个 例子 是 Memory > Heap 
， 它 提供 了 很 多 数据 点 ， 因 此 有 自己 的 视图 。 





























另 一 种 类 型 的 MBean 操 作 不 是 简单 地 显示 一 个 值 或 允许 你 设置 一 个 值 ， 而 是 要 执行 一 些 
和 FesetPeakThreadCount 
就 是 这 类 操作 的 例子 。 























现在 ， 我 们 很 快 将 进入 针对 Cassandra 的 监控 和 管理 。 





9.2.2 集成 JMX 








让 Cassandra 使 用 JMX 非 常 简 单 ， 不 过 还 是 有 一 些 依 赖 的 库 。 首 先 要 去 http:V/V/mx4j . 
下 载 MX4J 库 3.0.1。 你 没准 可 以 看 到 新 的 可 用 版 本 ， 不 过 3 ,0.1 是 确实 可 用 的 。 














下 载 mx4j 库 之 后 ， 解 压 并 进入 Lip 目 录 。 复 制 其 中 的 两 个 ]JAR 包 : mx4j ,jar 和 mx4j-t 





如 果 你 下 载 了 Cassandra 的 源码 包 ， 只 需要 直接 把 这 两 个 JAR 包 放 入 Lib 目 录 ， 并 重新 多 


INFO 13:37:28,473 Cassandra starting up... 
DEBUG 13:37:28,474 Will try to load mx4j now, if it's in the classpath 


INFO 13:37:28,508 mx4j successfuly loaded 
HttpAdaptor version 3.0.2 started on port 8081 

















这 里 ，MX4J 是 我 们 的 JMX 服 务 器 代理 ， 现 在 一 切 已 经 就 绪 ， 来 享用 JMX 带 来 的 好 处 吧 。 








9.3 通过 JMX 与 Cassandra 交 互 


现在 ，JMX 支 持 已 经 打开 了 ， 我 们 连接 到 Cassandra 的 JMX 端 口上 。 只 需要 打开 一 个 新 


>jconsole 


启动 了 jconsole 
后 ,会 看 到 一 个 类 似 图 9-4 的 登录 界面 。 





图 9-4: ”jconsole 登 录 界面 





在 这 里 ， 如 果 你 要 监控 的 就 是 本 机 ， 可 以 简单 双击 在 本 地 进程 部 分 中 的 org.apache， 









































有 其 他 进程 占用 了 8080 端 口 ， 这 个 端口 被 很 多 工 


一 旦 连接 到 服务 器 上 ， 默 认 视 图 包含 服务 器 状态 的 如 下 四 个 主要 类 别 ， 它 们 会 被 不 断 更 计 





会 显示 出 Cassandra 正 在 使 用 的 活 线程 数量 。 





ax 


cassandra 加 载 的 类 的 个 数 。 这 个 数值 对 于 一 个 如 此 强大 的 程序 来 说 ， 是 非 


Y 


DA 





CPU 利用 率 














以 百分比 的 形式 显示 Cassandra 程 序 当前 占用 处 到 














你 可 以 在 图 表 中 调整 显示 的 时 间 范 围 。 








想 要 查看 Cassandra 使 用 Java 推 和 其 他 内 存 的 细节 情况 ， 可 以 单 击 Memory 标 签 。 























可 以 同时 连接 到 多 个 JMX 人 代理。 只 要 在 荣 单 中 选择 File > New Connection,, ,并 重 











9.4 Cassandra 的 MBean 























一 旦 你 用 JConsole 或 其 他 JMX 代 理 连 接 上 了 Cassandra， 就 可 以 用 它 暴 露出 来 的 MBea 
开头 。 我 们 不 会 在 这 里 进入 到 每 个 类 的 细节 ， 但 会 看 其 中 一 些 我 们 感 兴趣 的 。 





cassandra 中 的 许多 类 都 作为 MBean 暴 露出 来 ， 这 意味 着 它们 实现 了 一 个 定制 接口 ， 这 








对 于 这 个 例子 ， 我 们 来 看 看 Ccassandra 的 StorageService 


是 如 何 使 用 MBean 的 。 这 里 是 StorageServiceMBean 
类 的 部 分 定义 ， 为 了 简洁 起 见 ， 一 些 操作 被 省 略 了 : 








public interface StorageServiceMBean 
t 
public Set&ltString» getLiveNodes(); 
public Set&ltString» getUnreachableNodes(); 


public void forceTableFlush(String tableName, String... columnFamilies) 
throws IOException; 


public void removeToken(String token); 


可 以 看 到 ， e Mean ka ur ne 这 只 是 一 个 常规 的 定义 了 一 些 操 人 
的 实现 必须 支持 它们 。 这 通常 意味 着 需要 维护 附加 的 元 数据 信息 ， 用 于 文 持 这 些 的 操作 




















StorageService 
类 实现 了 这 个 接口 ， 于 是 必须 自己 直接 支持 JMX。 一 致 性 管理 嚣 域 有 一 个 java .util 


类 型 的 引用 ， 不 过 ， 实 际 的 实现 类 型 是 org .apache.cassandra.concurren 
类 型 的 
ZAR o 


private ExecutorService consistencyManager = 
new JMXEnabledThreadPoolExecutor 



































(DatabaseDescriptor.getConsistencyThreads(), 
DatabaseDescriptor.getConsistencyThreads(), 
StageManager .KEEPALIVE, 

TimeUnit.SECONDS, 
new LinkedBlockingQueue(), 
new NamedThreadFactory( "CONSISTENCY - MANAGER" ) ) ; 





JMXEnabledThreadPoolExecutor 
skErJMXEnabledThreadPoolExecutor-MBean 
接口 ， 因 而 也 实现 了 org.apache.cassandra.concurrent.IExecutor- 


， 所 以 ， 所 有 使 用 线程 池 的 Cassandra 类 都 可 以 暴露 同样 的 操作 给 JMX。 我 们 可 以 在 J 
里 看 到 Cassandra 是 如 何 支 持 JMX 的 。 








执行 器 池 在 它 的 构造 器 里 向 平台 MBean 服 务 器 注册 自己 ， 如 下 : 


public JMXEnabledThreadPoolExecutor(int corePoolSize, 
int maximumPoolSize, 
long keepAliveTime, 
TimeUnit unit, 
BlockingQueue&ltRunnable» workQueue, 
NamedThreadFactory threadFactory) 


t 
super(corePoolSize, maximumPoolSize, keepAliveTime, unit, workQueue, 
threadFactory); 
super.prestartAllCoreThreads(); 


MBeanServer mbs = ManagementFactory.getPlatformMBeanServer(); 
mbeanName = "org.apache.cassandra.concurrent:typez" + threadFactory.id; 


try 
t 


mbs.registerMBean(this, new ObjectName (mbeanName)); 


catch (Exception e) 


throw new RuntimeException(e); 








这 里 ， 平 台 服 务 器 就 是 嵌入 在 JDK 里 的 默认 服务 器 。MBean 被 命名 ， 然 后 注册 到 平台 Mbe 


为 了 保持 系统 清洁 ， 在 JMXEnabledThreadPoolExecutor 
关闭 的 时 候 ， 这 个 类 也 会 把 自己 从 MBean 服 务 器 注销 : 





private void unregisterMBean() 


{ 
try 


{ 


ManagementFactory.getPlatformMBeanServer() .unregisterMBean 


(new ObjectName (mbeanName) ) 


catch (Exception e) 
{ 
throw new RuntimeException(e); 
$ 
} 





与 此 类 似 ，StorageService 

类 也 会 为 自己 本 地 维护 的 JMX 属 性 向 MBean 服 务 器 进行 注册 和 注销 。 这 个 类 会 做 它 本 身 
实现 的 getUnreachableNodes 

操作 。 





public Set&ltString» getUnreachableNodes() 
t 


return stringify(Gossiper.instance.getUnreachableMembers()); 


j 





Gossiper 

类 是 一 个 维护 IP 地 址 列表 的 单 例 ， 包 含 那 些 和 本 节点 进行 收发 心跳 信息 的 节点 的 地 址 ， 
方法 时 ， 它 会 调用 StorageService 

的 MBean 方 法 ,而 StorageService 

则 作为 代理 ， 调 用 Gossiper 

类 的 方法 ， 后 者 返回 不 可 达 的 IP 地 址 ， 并 包装 在 一 个 新 的 集合 中 ， 这 样 调用 者 就 无 法 
里 这 个 列表 的 内 容 了 。 





















































/* 不 可 达成 员 组 */ 
private Set unreachableEndpoints = 
new ConcurrentSkipListSet(inetcomparator); 


//. 


public Set getUnreachableMembers() 
t 


j 


return new HashSet(unreachableEndpoints ); 





当 我 们 在 JMX 代 理 ( 也 就 是 JConsole)〉 中 打开 这 个 方法 的 时 候 ， 可 能 很 欣慰 地 看 到 这 个 


en 


x Java Monitoring & Management Console 


indo Help 






-Ell-pid-227-0rg-3pachecassandraihnftcassandrana 
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|&j pid: 4427 org.apache.cassandra.thrift.Cassandra... 





图 9-5: ， StorageService 的 不 可 达 节 点 属性 





在 接 下 来 的 小 节 中 ， 我 们 将 逐个 包 地 看 看 可 以 使 用 JMX 来 监控 和 管理 哪些 特性 。 


9.4.1 org.apache.cassandra.concurrent 














这 个 包 提 供 了 Cassandra 的 线程 和 流 相关 的 功能 





。 因 而 ， 这 里 有 分 阶段 事件 驱动 架构 





这 些 MBean 大 部 分 只 允许 你 查看 属性 。 如 果 你 怀疑 Cassandra 环 上 有 数据 写 入 问题 或 节 











按照 SEDA 的 架构 ，Cassandra 的 每 个 阶段 都 会 暴露 自己 的 MBean。 这 意味 着 你 可 以 迅 
X As fr Be 
迁移 阶段 
响应 阶段 
行 改动 阶段 〈 用 于 删除 和 更 新 ) 
行 读 取 阶 段 


流 阶 段 








对 于 每 个 阶段 ， 你 都 可 以 看 到 活动 的 、 完 成 的 和 等 待 中 的 任务 数 。 有 些 阶 段 ， 在 读 写 数 


9.4.2 org.apache.cassandra.db 


这 个 包 里 是 关于 Cassandra 核 心 数据 库 本 身 的 类 ， 








它们 作为 MBean 暴 露出 来 。 这 些 类 包 


你 可 以 看 到 Cassandra 维 护 的 各 种 绥 存 的 信息 一 包括 列 族 的 键 和 行 提示 的 缓存 一 用 于 




















列 族 存储 是 另 一 组 MBean， 它 们 不 仅 提 供 更 丰富 的 忆 

















性 值 ， 也 允许 进行 








类 的 forceMajorCompaction 
方法 发 起 主 压 紧 ， 或 使 行 缓存 无 效 。 





些 管理 


操作 。 











这 里 有 一 组 关于 读 写 数据 的 有 用 的 统计 信息 ,位 于 ColumnFamilyStores > sys 


bean 之 中 : 


总 读 计 数 


这 是 Cassandra 所 进行 过 的 读 操作 的 总 数 ， 可 以 从 ReadCount 





属性 得 到 。 


近期 读 时 延 


可 以 从 RecentReadLatencyMicros 














属性 读 到 这 个 数值 (单位 为 毫秒 〉。 还 可 以 查看 TotalReadLatencyMicro 
属性 ， 总 的 读数 量 与 读 时 延 相 乘 就 可 以 得 到 这 个 数值 。 


如 果 你 发 现 性 能 正在 下 降 ， 可 以 方便 地 通过 这 些 统计 信息 进行 分 析 。 它 们 同时 也 展示 了 C 









































这 组 MBean 还 提供 了 压 紧 管 理 器 的 数据 ， 包 括 正 在 进行 压 紧 的 进程 中 的 总 字 节 数 和 有 历史 


9.4.3 org.apache.cassandra.gms 














这 个 包 有 一 个 提供 了 三 个 操作 的 MBean: fep SIX DONG RERA EAE pi 








9.4.4 org.apache.cassandra.service 











service 包 提供 了 两 个 bean: StorageService 


和 StreamingService 
。 因 为 这 些 类 是 Cassandra 操 作 的 核心 ， 它 们 骏 露 了 最 多 的 操作 ， 给 了 你 相当 多 的 外 音 





1. StorageService 





Cassandra 是 一 个 数据 库 ， 所 以 它 本 质 上 是 一 个 非常 复杂 的 存储 程序 ， 因 此 ， 当 你 过 到 
MBean。 这 个 MBean 人 允许 你 检查 OperationMode 
， 如 果 一 切 进行 得 平滑 顺利 ， 这 个 值 应 该 是 normal 
(其 他 可 能 的 状态 是 leaving 
. joining 
. decommissioned 
fliclient^) . 








你 还 可 以 碍 看 当前 集群 的 活 节点 与 不 可 达 节 点 。 如 果 有 节点 不 可 达 ，Cassandra 会 在 U 
属性 中 告诉 你 它们 的 IP 地 址 。 这 个 bean 还 提供 了 很 多 其 他 标准 的 维护 操作 ， 理 解 这 些 









































如 果 你 希望 在 运行 时 改变 Cassandra 的 日 志 级 别 而 不 中 断 服 务 〈 就 像 开 始 的 通用 例子 一 
方法 。 例 如 ， 为 了 解决 某 个 问题 ， 将 Cassandra 的 日 志 级 别 设置 为 了 debug。 你 可 以 1 
MBean。 我 们 将 改变 一 个 输出 特别 多 的 类 的 值 : LoadDisseminatior 
。 这 个 操作 的 第 一 个 参数 就 是 你 要 修改 日 志 级 别 的 类 的 名 字 ， 第 二 个 参数 是 你 希望 设置 

















和 INFO 
， 然 后 单 击 写 有 setLog4jLevel 的 按钮 。 你 将 看 到 如 下 输出 日 志 〔 假 设 日 志 级 别 已 经 





DEBUG 17:17:30,515 Disseminating load info ... 
INFO 17:17:42,001 set log level to INFO for classes under 


'org.apache.cassandra.service.LoadDisseminator' 
(if the level doesn't look like 'INFO' then 10g4j couldn't parse 'INFO') 








从 输出 中 可 以 看 到 ，Cassandra 记 录 了 一 个 加 载 info 的 语句 ， 这 是 因为 之 前 的 日 志 级 昂 
操作 之 后 ， 我 们 只 得 到 INFO 
输出 ， 而 没有 debug 级 别 的 日 志 输 出 语句 了 。 














要 了 解 每 个 节点 的 负载 ， 可 以 使 用 getLoadMap() 
方法 ， 这 个 方法 返回 一 个 Java Map， 键 值 为 TP 地 址 ， 值 为 对 应 节点 的 负载 。 

















如 果 你 在 查找 一 个 特定 的 键 值 ， 可 以 使 用 getNaturalEndpoints(String tab 
操作 ， 传 递 的 参数 是 表 名 和 所 要 查找 端点 的 键 值 ， 方 法 将 返回 一 个 负责 存放 对 应 键 值 的 














你 还 可 以 使 用 getRangeToEndpointMap 
操作 ， 获 取 一 个 区 间 到 端点 的 映射 ， 描 绘 出 环 的 拓扑 。 

















如 果 要 废弃 一 个 服务 器 ， 也 可 以 使 用 这 个 MBean。 调 用 decommission() 
操作 ， 这 样 当前 节点 的 数据 就 会 自动 地 传送 到 其 他 节点 上 ， 并 让 当前 节点 退出 服务 。 





如 果 你 足够 勇敢 ， 可 以 对 一 个 给 定 keyspace 中 的 给 定 列 族 调 用 truncate 操 作 。 如 果 所 














如 果 你 通过 其 他 MBean 发 现 ， 节 点 已 经 非常 不 平衡 了 ， 那 么 进行 维护 的 好 办 法 是 使 用 10 
操作 。 不 平衡 随时 可 能 发 生 ， 一 些 节 点 的 数据 可 能 会 过 于 热门 。 这 个 操作 将 会 导致 当前 


2. StreamingService 


org.cassandra.streaming.StreamingServiceMBean 


定义 了 如 下 接口 : 





public interface StreamingServiceMBean 
t 
public Set&ltInetAddress» getStreamDestinations(); 
public List&ltString» getOutgoingFiles(String host) throws IOException; 


public Set&ltInetAddress» getStreamSources(); 


public List&ltString» getlIncomingFiles(String host) throws IOException; 


public String getStatus(); 




















这 里 有 两 个 基本 概念 : 流 源头 和 流 目的 。 每 个 节点 可 以 将 它 的 数据 作为 流 发 送 给 另 一 个 


getStatus 
方法 不 是 一 系列 可 能 状态 的 枚 举 值 。 它 会 返回 一 个 字符 串 ， 形 式 是 ReceivingFrom 


o 











StreamingService 


MBean5StorageService 
MBean 经 常 在 一 起 使 用 ， 如 果 你 认为 一 个 本 该 接收 数据 的 节点 没有 接收 数据 ， 或 者 一 个 














9.5 定制 Cassandra 的 MBean 








如 果 你 希望 添加 一 些 新 的 支持 JMX 的 特征 ， 可 以 自己 进行 这 项 工作 。 我 们 来 快速 地 写 一 人 











首先 我 们 要 获取 源 代码 ， 并 在 要 包装 的 Cassandra 源 文件 旁边 新 建 一 个 MBean 接 口 。 我 


package org.apache.cassandra.thrift; 


public interface CassandraServerMBean { 
public String getVersion(); 





要 打开 CassandraServer .java 的 源 代 码 ， 让 它 实 现 我 们 的 MBean 接 口 ， 并 名 


package org.apache.cassandra.thrift; 


import javax.management.MBeanServer; 
import javax.management.ObjectName; 


import org.apache.cassandra.auth.AllowAllAuthenticator; 
import org.apache.cassandra.concurrent.StageManager; 














// 其 他 import 


public class CassandraServer implements Cassandra.Iface, CassandraServerMBean 


public static final String MBEAN OBJECT NAME - 
"org.apache.cassandra.service:type-CassandraService"; 


public CassandraServer() 


iH 


storageService - StorageService.instance; 


final MBeanServer mbs - ManagementFactory.getPlatformMBeanServer(); 
try 


t 
mbs.registerMBean(this, new ObjectName(MBEAN OBJECT NAME)); 


} 


catch (Exception e) 





throw new RuntimeException(e); 


} 
// 其 他 的 服务 器 实现 代码 


// MBean 钩 子 代码 
public String getVersion() ( 


String version - null; 

try 1 
version - describe version(); 

) catch(TException e) { 
logger.warn("Cassandra server version unavailable: ", e.getMessage()); 
version - "unavailable"; 


j 


return version; 





我 们 实现 了 前 面 给 出 的 接口 ， 并 将 Cassandra 服 务 器 与 管理 平台 连接 到 了 一 起 。 现 在 需 


命令 编译 代码 ， 然 后 启动 服务 器 。 之 后 ， 运 行 jcConsole 
， 连 接 到 服务 器 实例 。 如 图 9-6 所 示 ， 你 应 该 可 以 看 到 这 个 属性 已 经 可 用 了 。 
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出 | & StorageService 
而 叶 StreamingService 
+| system 





















































图 9-6: 定制 的 MBean 提 供 了 Cassandra 的 API 版 本 号 


这 里 的 8.1.0 是 作为 一 个 Thrift 常 量 而 生成 的 API 版 本 号 ， 不 必 和 Cassandra 版 本 号 术 
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如 果 你 在 修改 源 代 码 ， 但 是 不 确定 修改 了 什么 ， 可 以 通过 Subversion 来 检查 本 地 
命令 就 可 以 看 到 两 个 文件 的 变化 ， 并 可 以 把 比较 结果 输出 到 一 个 新 文件 : 





ebenQmorpheus:-$ svn diff 


/home/eben/cassandra/dist/trunk-svn-1/src/java/org/apache/cassandra/thrift/Cassandra 


/home/eben/cassandra/dist/trunk-svn-2/src/java/org/apache/cassandra/thrift/Cassandra$ 
>> /home/eben/CassandraServer.patch 



































这 里 ， 我 们 不 需要 谈论 太 多 关于 JMX 的 细节 ， 但 如 果 要 理解 Cassandra 并 管理 


























如 果 你 正在 调试 ， 不 确定 使 用 命令 行 接口 对 Cassandra 执 行 了 什么 命令 ， 可 以 查看 ! 





9.6.1 使 用 JMX 和 JHAT 进 行 堆 分 析 





在 调试 Cassandra 应 用 的 时 候 ， 经 常 需 要 了 解 堆 上 究竟 发 生 了 什么 。 如 果 你 不 在 主干 上 











cassandra 会 使 用 很 多 内 存 ， 而 且 垃 圾 回收 和 主 压 紧 对 性 能 有 很 大 的 冲击 。 这 里 ， 一 

















要 更 好 地 理解 堆 ， 可 以 使 用 com. sun .management .HotSpotDiagnostic 
bean。 它 提供 了 一 个 名 为 dumpHeap 


的 方法 。 这 是 在 MBean 中 操作 的 名 字 ， 所 以 JMX 代 理 的 按钮 上 也 有 这 个 名 字 。 这 个 bea 
操作 写 出 的 堆 状 态 文件 是 HPROF 二 进 制 格式 的 ， 这 个 格式 用 于 堆 和 CPU 的 性 能 分 析 。 我 















































要 获得 堆 转 储 ， 只 要 运行 JConsoJe， 并 找到 Com .sun.management .Hot9Spot- 


bean， 展 开 0perations 树 视图 ， 单 击 dumpHeap 
操作 。 输 入 你 希望 转 储 到 的 目标 文件 的 相对 或 绝对 路 径 名 ， 如 图 9-7 所 示 。 











x java Monitoring & Management Console 








Operation invoca! 








[=] com.sun.management void 
= $$ HotSpotDiagnostic 


=] Attributes 


|dumpHeap| (po | /home/eben/heap |. 








DiagnosticOptions 
=| Operations 





|- MBeanOperationinfo - 
| 
getVMOption 
setVMOption 
因 javajang 
[+] java.util.logging 
因 org.apache.cassandra.concurri 
| 由 org.apache.cassandra.db EP 
f+ org.apache.cassandra.gms 
| 此 org.apache.cassandra.service 
+ system 





























图 9-7: 对 Cassandra 节 点 调用 dumpHeap 操 作 


打开 一 个 新 终端 ， 启 动 Jconsole 
。 你 应 该 可 以 看 到 一 个 弹出 框 ， 提 示 说 方法 已 经 成 功 调用 了 。 





你 也 可 以 使 用 JDK 附 带 的 jmap 工 具 而 不 使 用 图 形 界 面 ， 获 得 堆 转 储 文 件 。 首 先 找 到 Cass 
命令 并 查找 “java“ 。 也 就 是 ， 如 果 你 有 很 多 正在 运行 的 Java 进 程 ， 那 么 可 以 通过 更 精 


o 


译注 1: 也 可 以 使 用 JDK 附 带 的 jps 
命令 ， 列 出 所 有 Java 进 程 的 ID， 会 直接 列 出 类 名 ， 比 ps 
命令 更 直观 。 
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你 可 以 在 Linux 系 统 中 ， 打 开 一 个 终端 ， 如 下 运行 ps 命令 找到 Cassandra 的 进程 I 


$ ps -ef | grep 'CassandraDaemon' 





一 旦 得 到 Cassandra 的 进程 TD， 我 们 可 以 使 用 它 来 指定 希望 jmap 
工具 进行 快照 的 堆 。 这 有 助 于 我 们 找 出 挂 起 进程 、 定 位 内 存 泄漏 源 等 。 














eben@morpheus:~$ jmap -dump:live,format-b,file-/home/eben/jmapdump.bin 4427 
Dumping heap to /home/eben/jmapdump.bin ... 


Heap dump file created 








现在 己 经 获取 了 堆 数 据 ， 让 我 们 使 用 JHAT 工 具 来 取出 它 。 要 运行 JHAT， 可 以 打开 一 个 终 


这 个 命令 会 运行 相当 一 段 时 间 ， 然 后 输出 类 似 下 面 的 内 容 : 


Chasing references, expect 63 dots 
Eliminating duplicate references 
Snapshot resolved. 


Started HTTP server on port 7000 
Server is ready. 





现在 ， 服 务 器 已 经 启动 了 ， 我 们 可 以 打开 浏览 器 ， 在 http://localhost:7000 
查看 文件 。 堆 转 储 文件 是 可 移植 的 ， 在 生成 堆 转 储 之 后 ， 可 以 把 它 放 到 其 他 机 器 上 使 用 
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JHAT 需 要 运行 一 阵 ， 然 后 在 7000 端 口 启 动 一 个 Web 服 务 器 〈JDK 6 开始 ， 有 一 个 集 
， 在 Linux 下 可 以 使 用 >netstat -o -a | less 


o 

















要 了 解 更 多 如 何 使 用 JHAT 的 信息 ， 可 以 查看 这 个 页 面 : http://java.sun.com/j 
2 


或 通过 j hat -h 来 查看 帮助 信息 。 

















译注 2 : 由 于 被 0racle 收 购 ， 页 面 已 经 转向 http://download.oracle.com/javase/6/docs/technotes/ 




















生成 的 网 站 提供 了 一 些 选 项 ， 可 以 限制 查阅 的 范围 : 








所 有 类 ， 包 括 Java 平 台 的 类 ; 








所 有 类 ， 不 包括 Java 平 台 类 ; 


根 引 用 集 (root set) 的 所 有 成 员 ; 





所 有 类 的 实例 计数 ; 














堆 直 方 图 ， 显 示 所 有 类 和 它们 的 创建 实例 数 与 总 尺寸 ; 





等 待 finalizer 执 行 的 类 。 


如 果 Cassandra 有 问题 ， 就 会 创建 一 个 hprof 文 件 ， 同 时 我 们 可 以 看 到 如 下 输出 : 








DEBUG 16:13:17,640 Disseminating load info ... 
java.lang.OutOfMemoryError: Java heap space 
Dumping heap to java pid21279.hprof ... 


Heap dump file created [2766589 bytes in 0.032 secs] 


ERROR 16:13:34,369 Fatal exception in thread Thread[pool-1-thread-1,5,main] 
java.lang.OutOfMemoryError: Java heap space 
at org.apache.thrift.protocol.TBinaryProtocol.readStringBody(TBinaryProtocol 
.java:296) 
at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol 
.java:203) 
at org.apache.cassandra.thrift.Cassandra$Processor.process(Cassandra.java:1113) 





文件 将 会 存放 在 <cassandra-home> 目 录 中 ， 你 可 以 这 样 打开 它 : 


$ jhat java pid21279.hprof 
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此 外 ， 你 还 可 以 在 HTML 表 单 中 执行 一 个 堆 数据 的 查询 ， 来 创建 定制 化 视图 。 对 象 查询 语 
包 的 对 象 。 











€ > Œ f t: ntpilcabost7000/od/?query select» fiter(neap.classes(),*"Jorg.apache.cassanda >| Dr Fr 
Object Query Language (OQL) query | 
All Classes (excluding platform) OQL Help 


select filter (heap.classes() , "/|org.apache.cassandra.db./ (it.name)") 








í class org apache cassandra db BinaryMemtable, class org apache cassandra db Binary Verb Handler, class 
org apach sandra db. Column. class org apache. cassandra db. ColumnFamily. 


lumnF amilySenalzer, 








4 Object at 0x3a272e0- htm ~ 





图 9-8: 在 JHAT 中 使 用 对 象 查询 语言 ， 过 滤 出 db 包 中 的 Cassandra 类 








一 旦 查询 返回 结果 ， 你 就 可 以 单 击 类 名 来 查看 关于 它 的 详细 信息 。 
你 也 可 以 针对 更 具体 的 对 象 属性 进行 查询 。 比 如 ， 你 可 能 希望 只 过 滤 出 有 2090 多 个 字符 包 


select s from java.lang.String s where s.count >= 200 
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关于 对 象 查询 语言 的 更 多 细节 超出 了 本 书 的 范围 ， 不 过 它 并 不 难 使 用 。JHAT 工 具 中 








在 这 个 例子 里 ， 我 们 可 以 使 用 查询 结果 来 查看 字符 串 里 的 classpath 信 息 : 








Object at 0x3a272e0 


instance of -ea -Xdebug 

-Xrunjdwp:transport-dt socket,server-y,address-8888, suspend-n 

-Xms128m -Xmx1G -XX:TargetSurvivorRatio-90 -XX:-AggressiveOpts 
-XX:-UseParNewGC -XX:-4UseConcMarkSweepGC -XX:-«cMSParallelRemarkEnabled 
-XX:*HeapDumpOnOutOfMemoryError 


-XX:SurvivorRatio-128 -XX:MaxTenuringThreshold-Oo 
-Dcom.sun.management.jmxremote.port-8080 
-Dcom.sun.management.jmxremote.ssl-false 
-Dcom.sun.management.jmxremote.authenticate-false -Dcassandra 
-Dstorage-config-/opt/apache-cassandra-0.6.2/0.6.2-source/conf 
-Dcassandra-foreground-zyes (24 bytes) 





` 


这 是 一 个 迁 回 查看 classpath 开 关 的 方法 ， 不 过 它 提供 了 一 些 关 于 如 何 使 用 JMap 和 JH 




















9.6.2 发 现 线程 问题 








如 果 你 从 JConsole 发 现 系统 变 慢 ， 或 是 无 法 控制 的 资源 消耗 增长 ， 可 能 希望 了 解 当前 从 





在 Jconsole 中 ， 单 击 Thread 标 签 。 左 侧 窗口 将 会 显示 出 线程 和 线程 池 的 列表 ， 你 可 以 
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在 Java 中 ，“stuck” 线 程 是 指 应 用 在 一 个 超时 周期 后 ， 将 该 线程 放 到 了 “stuck” 状 








最 后 ， 如 果 你 关心 是 否 有 互相 死 锁 的 线程 ， 可 以 单 击 Detect Deadlock 按 钮 。 








9.7 健康 检查 











有 一 些 基 本 的 检查 ， 可 以 借 此 而 

















上 保 集 群 中 的 节点 处 于 健康 状态 。 


检查 org.apache.cassandra.concurrent.ROW MUTATION STAGB 


MBean。 这 里 你 可 以 看 到 完成 任务 数 在 二 











首长 ， 这 意味 着 写 操作 (插入 、 更 新 和 删 | 





检查 org.apache.cassandra.concurrent.ROW READ STAGE 














MBean. XE, 15m 























上 认 完 成 任务 计数 在 





外 认 这 两 个 MBean 中 的 PendingTasks 
属性 的 值 不 会 增长 太 高 。 即 使 这 个 数值 不 是 很 小 ， 也 应 该 是 相对 稳定 的 。 持 续 增 


首长 ， 这 意味 着 读 请 





和 通常 一 样 ， 检 查 日 志 ， 并 确保 没有 ERROR 





级 别 的 日 志 报告 。 





求 在 不 断 进 入 并 成 了 











9.8 小 结 














本 章 中 ， 我 们 介绍 了 监控 和 管理 Cassandra 集 群 的 方法 。 特 别 地 ， 我 们 详细 介绍 了 JMX 











我 们 还 比较 深入 地 学 习 了 如 何 使 用 Java 开 发 套件 (JDK) 中 的 工具 来 了 解 Cassandra 运 











还 有 很 多 其 他 更 强大 的 维护 监控 工具 ， 但 这 些 足 够 帮 你 起 步 了 。 你 的 组 织 可 能 已 经 在 使 月 
) ， 这 个 工具 有 JMX 钩 子 。 又 如 Nagios， 这 是 一 个 开源 、 免 费 而 且 相 当 直 接 的 工具 。 














Mahalo 上 有 一 篇 文章 写 了 它们 是 如 何 集成 Nagios 和 JMX 的 ， 链 接 为 http //www. 





现在 ， 你 应 该 已 经 准备 好 进行 日 常 维护 了 ， 更 好 地 了 解 了 Cassandra 集 群 ， 并 知道 如 何 











第 10 章 ”维护 





在 本 章 中 ， 我 们 会 介绍 一 些 用 于 保持 Cassandra 健 康 运行 的 东西 。 所 以 ， 带 上 你 的 安全 


Cassandra 自 带 的 Nodetool 位 于 <cassandra-home>/bin 上 有 目录。 这 是 个 命令 行程 序 ， 
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Nodetool 的 很 多 功能 和 JMX 接 口 提供 的 功能 是 重合 的 。 这 是 因为 在 台面 之 下 ，Nod 


的 辅助 类 来 调用 JMX 的 。 所 以 JMX 是 进行 实际 工作 的 ，NodeProbe 
用 于 连接 到 JMX 代 理 并 取出 数据 ， 而 Nodecmd 类 用 于 在 交互 式 命令 行 界面 中 展现 数 



































要 使 用 Nodetoo1， 需 要 和 Cassandra 本 身 完全 一 样 的 环境 ， 也 就 是 说 ， 它 需要 同样 的 





命令 行 的 Nodetool 是 org .apache.cassandra.tools.NodeCmd 
的 一 个 包装 。 如 果 你 希望 确切 了 解 它 是 如 何 工 作 的 ， 可 以 查看 该 类 的 源 代码 。 

















启动 Nodetool 易 如 反 掌 ， 只 要 打开 一 个 终端 ， 进 入 <cassandra-home> 目 录 ， 并 执行 


$bin/nodetool 














这 么 直接 运行 会 得 到 错误 输出 ， 不 过 这 也 使 程序 输出 一 组 可 用 的 命令 ， 下 面 就 会 介绍 这 上 





10.1 获取 环 的 信息 


你 可 以 了 解 到 关于 环 和 环 上 节点 的 很 多 信息 ， 这 就 是 本 节 的 内 容 。 你 可 以 获取 一 个 单独 








10.1.1 Info 





最 直接 的 方式 就 是 使 用 info 
命令 。 它 告诉 Nodetoo01 连 接 一 个 节点 ， 并 获取 关于 它 当 前 状态 的 基本 数据 。 只 要 把 要 




















$ bin/nodetool -h 192.168.1.5 info 
134439585115453215112331952664863163581 
Load : 3.93 MB 

Generation No : 1277663698 

Uptime (seconds) : 19639 

Heap Memory (MB) : 36.60 / 1011.25 














这 里 ， 唯 一 可 能 有 疑问 的 内 容 是 “Generation No7 域 。 这 是 每 个 端点 的 心跳 状态 ， 上 
使 用 一 个 时 间 戳 来 维护 。 





10.1.2 Ring 














要 确定 环 上 有 哪些 节点 ， 它 们 状态 如 何 ， 可 以 使 用 Nodetool1 的 host 
firing 
FX, WF: 














$ bin/nodetool -host 192.168.1.5 ring 








它 会 输出 类 似 这 样 的 结果 : 





Address Status Load Range Ring 
41654880048427970483049687892424207188 

192.168.1.5 Up 1.71 KB 20846671262289044293293447172905883342  |&lt--| 

192.168.1.7 Up 2.93 KB 41654880048427970483049687892424207188 |-->| 


这 里 ， 我 们 可 以 看 到 环 上 所 有 节点 的 TP 地址 。 这 个 例子 里 有 两 个 节点 ， 一 个 在 1,5， 男 








区 间 令 牌 














keyspace 中 的 数据 会 划分 为 区 间 。Cassandra 为 集群 中 的 每 个 节点 分 配 唯 一 的 令 牌 ， 
开关 进行 查询 得 到 的 区 间 列 就 是 每 个 节点 负责 的 令 牌 。 











有 一 个 特殊 的 区 间 称 为 “ 折 回 区 间 ”(wrapping range) 。 令 牌 值 最 低 的 节点 在 分 到 其 








10.2 获取 统计 信息 


Nodetool 还 允许 你 收集 精 帮 














外 到 数据 级 的 服务 器 状态 





统计 信息 。 与 Info 





开关 相 比 ， 这 会 给 出 详细 得 多 的 数据 信息 。 有 两 个 基本 的 统计 信息 命令 : cfstats 


和 tpstats 
， 我 们 都 会 介绍 到 。 


10.2.1 使 用 cfstats 














要 查看 每 个 列 族 数 据 的 概述 信息 ， 可 以 使 用 cfstats 


这 个 命令 会 给 出 集群 的 性 能 指标 。 要 查看 列 族 的 统计 数据 ， 执 行 如 下 Nodetoo 
命令 (当然 ， 得 把 IP 地 址 蔡 换 成 你 集群 中 的 节点 的 地 址 〉》: 





$ bin/nodetool -host 192.168.1.5 cfstats 


这 个 命令 会 产生 类 似 这 样 的 输出 : 





Keyspace: Keyspace1 
Read Count: 13 


Read Latency: 0.3252307692307692 ms. 


Write Count: 3 


Write Latency: 0.13266666666666665 ms. 


Pending Tasks: 0 


Column Family: StandardByUUID1 


SSTable count: 0 


Space used (live): 0 
Space used (total): 0 
Memtable Columns Count: © 


Memtable Data Size: 


0 


Memtable Switch Count: 0 


Read Count: 0 


Read Latency: NaN ms. 


Write Count: 0 
Write Latency: NaN 
Pending Tasks: 0 


Key cache capacity: 


ms. 


200000 





Key cache Size: 0 

Key cache hit rate: NaN 

Row cache: disabled 

Compacted row minimum size: 0 
Compacted row maximum size: 0 
Compacted row mean size: 0 
Column Family: Standard2 
SSTable count: 1 

Space used (live): 379 

Space used (total): 379 
Memtable Columns Count: 0 
Memtable Data Size: 0 
Memtable Switch Count: 1 

Read Count: 13 

Read Latency: 0.325 ms. 

Write Count: 3 

Write Latency: 0.133 ms. 
Pending Tasks: 0 

Key cache capacity: 1 

Key cache size: 0 

Key cache hit rate: NaN 

Row cache: disabled 

Compacted row minimum size: 0 
Compacted row maximum size: 0 
Compacted row mean size: 0 








这 里 为 了 简单 ， 只 截取 了 部 分 输出 ， 它 为 每 个 列 族 生成 同样 的 统计 信息 。 你 可 以 查看 读 
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Bp EROR SUY —PMEEBISERHEAGS,. aE AEE. XX nIBexR 
命令 ， 来 查看 哪些 任务 处 于 什么 阶段 。 比 如 ， 如 果 很 多 任务 处 于 ROW-MUTATION-S 














这 里 的 统计 数据 展示 了 Cassandra 到 底 有 多 快 。 不 可 否认 ， 这 里 的 负载 非常 低 ， 不 过 号 


10.2.2 使 用 tpstats 


tpstats 
工具 给 出 Cassandra 维 护 的 线程 池 的 信息 。Cassandra 是 高 并 发 的 ， 并 且 特 别 为 多 处 

















要 获得 线程 池 的 统计 信息 ， 可 以 使 用 tpstats 
开关 执行 Nodetoo1， 如 下 : 





$ bin/nodetool -host 192.168.1.5 tpstats 











这 回 生成 表示 特定 节点 上 的 线程 池 的 数据 的 ASCII 文 本 输出 : 





Pool Name i i Completed 
FILEUTILS-DELETE-POOL 101 
MESSAGING-SERVICE-POOL 71594081 
STREAM-STAGE 2 
RESPONSE-STAGE 38154433 
ROW-READ-STAGE 12542 
LB-OPERATIONS 0 
COMMITLOG 65070187 
GMFD 1002891 
MESSAGE - DESERIALIZER-POOL 105025414 
LB- TARGET 0 
CONSISTENCY-MANAGER 2079 
ROW-MUTATION-STAGE 52419722 
MESSAGE - STREAMING-POOL 121 
LOAD-BALANCER-STAGE 0 
FLUSH-SORTER-POOL 115 
MEMTABLE - POST - FLUSHER 115 
COMPACTION-POOL 364 
FLUSH-WRITER-POOL 115 
HINTED-HANDOFF -POOL 154 


OOOOOOOPOOOOPOOOONO 
OOOOOOOPOOOOOOOOOPO 


你 可 以 直接 看 到 每 个 阶段 里 有 多 少 操作 ， 以 及 它们 的 状态 是 活动 中 、 等 待 还 











看 到 很 多 0 意味 着 服务 器 进行 的 活动 非常 少 ， 或 者 cassandra 正 在 进行 异常 














10.3 基本 维护 工作 





在 进行 一 些 比 较 有 影响 的 任务 之 前 或 之 后 ， 你 需要 进行 一 些 其 他 任务 。 比 如 ， 只 有 在 进 和 








10.3.1 修复 


运行 hodetool repair 
会 让 Cassandra 执 行 一 次 主 压 紧 。 目 标 节点 会 计算 出 一 个 数据 的 Merkle 树 ， 然 后 将 它 





在 一 次 主 压 紧 中 (参考 词汇 表 中 的 “ 压 紧 ”) ， 服 务 器 会 发 起 一 个 TreeRequest/TreeR 
类 负责 。AntiEntropyService 
实现 了 单 例 模式 ， 并 定义 了 静态 的 比较 器 类 ， 用 于 比较 两 棵 树 。 如 果 它 发 现任 何 差 异 ， 



































Cassandra 会 偶尔 自动 处 理 这 样 的 问题 ， 你 也 可 以 自己 来 发 起 它 。 








RS 


aa 
ug. 
Uu 


SUCRE T-XE Db ff)IDynamo 中 ，Cassandra 根 据 它 的 模型 实现 了 这 个 机 制 ( 如 果 你 








repair 
命令 与 其 他 Nodetool 命 令 不 同 ， 需 要 传 入 你 要 修复 的 指定 keyspace 的 名 字 : 


$ bin/nodetool repair Keyspace1 -h 192.168.1.7 














M 


运行 完 这 个 工具 之 后 ， 你 可 以 看 到 少量 的 服务 器 日 志和 输出 ， 类 似 这 样 : 








DEBUG 13:34:59,683 Started deliverAllHints 
INFO 13:34:59,684 Compacting [] 


DEBUG 13:34:59,684 Expected bloom filter size : 128 
DEBUG 13:34:59,685 Finished deliverAllHints 





什么 是 Merkle 树 





Merkle 树 是 以 它 的 发 明 者 Ralph Merkle 命 名 的 ， 又 称 为 “ 哈 希 树 ”。 它 的 数据 结构 














Cassandra 中 ，Merkle 树 由 org.apache.cassandra.utilsMerkleTre 
类 实现 。 





在 Cassandra 之 中 ，Merkle 树 用 于 保证 对 等 网 络 中 节点 收 到 的 数据 块 是 未 被 修改 和 


Aa 


as 
O 
yo 


因为 主 压 紧 是 个 非常 复杂 和 敏感 的 操作 ， 所 以 这 个 任务 不 应 该 运行 得 太 过 频繁 (不 及 








10.3.2 刷 写 








数据 存放 于 memtab1e 中 。 要 强制 把 memtable 中 的 数据 写 到 文件 系统 上 的 SSTable 中 ， 
命 令 , 如 下 : 


bin/nodetool flush -h 192.168.1.1 -p 9160 


如 果 检 查 服务 器 日 志 ， 可 以 看 到 类 似 这 样 的 输出 : 





DEBUG 15:16:33,945 Forcing binary flush on keyspace Keyspacel1, CF Standard2 
DEBUG 15:16:33,945 Forcing flush on keyspace Keyspacei, CF Standard2 
INFO 15:16:33,945 Standard2 has reached its threshold; 
switching in a fresh Memtable at 
CommitLogContext(file-'/var/lib/cassandra/commitlog/CommitLog1277663698134 
.log', position-1390) 
{Lans 
INFO 15:16:34,104 Completed flushing /var/lib/cassandra/data/Keyspace1/ 
Standard2-3-Data.db 











有 一 个 运行 了 一 段 时 间 的 集群 ， 你 希望 修改 副本 因子 或 副本 策略 。 这 是 可 能 的 ， 但 有 两 14 
命令 ， 以 确保 一 切 正常。 


















































你 可 以 用 cleanup 
作为 参数 ， 对 希望 清理 的 节点 运行 Nodetoo1: 




















$ bin/nodetool cleanup -h 192.168.1.7 








会 被 执行 ， 然 后 立即 返回 。 实 际 上 ， 这 是 在 指定 节点 上 运行 一 个 反 压 紧 操 作 。 








照 用 于 对 一 个 节点 的 某 些 或 全 部 keyspace 进 行 复制 ， 并 将 它 保存 到 一 个 独立 的 数据 


10.4.1 进行 快照 


当 对 一 个 或 多 个 keyspace 进 行 快照 的 时 候 ， Cassandra 会 调用 Table 
类 ， 它 会 对 每 个 列 族 调用 快照 方法 。 这 就 是 使 用 Java 的 文件 工具 ， 复 制 一 份 SSTable 








` 


照 之 前 进行 刷 写 ， 参 见 10 .3 .2 节 。 











进行 快照 可 以 直接 使 用 如 下 命令 


这 会 在 服务 器 日 志 中 打印 出 已 经 进行 快 ! 


DEBUG 14:25:15,385 Snapshot for Keyspace1 table data file 
/vVar/lib/cassandra/data/Keyspacedi/Standard2-1-Filter.db 

created as /var/lib/cassandra/data/Keyspace1/snapshots/1277673915365/ 
Standard2-1-Filter.db 


DEBUG 14:25:15,424 Snapshot for system table data file 
/var/lib/cassandra/data/system/LocationInfo-9-Filter.db 

created as /var/lib/cassandra/data/system/snapshots/1277673915389/ 
LocationInfo-9-Filter.d 





注意 ， 快 照 已 经 存放 在 已 执行 快照 的 时 间 戳 命名 的 文件 夹 中 了 ， 其 中 的 数据 文件 和 Cass 
这 个 Cassandra 的 内 部 keyspace。 





如 果 你 希望 对 一 个 指定 的 keyspace 进 行 快照 ， 可 以 把 keyspace 名 字 作 为 一 个 附加 参数 





$ bin/nodetool -h 192.168.1.5 snapshot Keyspace1 





ti. 


` 


V AS DE REOBCRUEC RE; RETE WMR RESET, MEEA 





如 果 你 希望 恢复 一 个 之 前 进行 的 快照 ， 有 几 步 工作 需要 做 。 首 先 关闭 节点 ， 并 删除 旧 的 $ 








10.4.2 清除 快照 


你 可 以 删除 任何 曾经 做 过 的 快照 ， 比 如 你 已 经 把 它们 备份 到 其 他 地 方 永 久 存储 起 来 了 。 
开关 。 


你 会 看 到 服务 器 有 这 样 的 日 志 输 出 : 





DEBUG 14:45:00,490 Disseminating load info ... 

DEBUG 14:45:11,797 Removing snapshot directory 
/var/lib/cassandra/data/Keyspace1/snapshots 

DEBUG 14:45:11,798 Deleting Standard2-1-Index.db 

DEBUG 14:54:45,727 Deleting 1277675283388-Keyspace1 














/7 清除 其 他 数据 文件 
DEBUG 14:54:45,728 Deleting snapshots 
DEBUG 14:45:11,806 Cleared out all snapshot directories 























注意 这 里 的 发 生 的 事情 : 所 有 的 快照 都 被 清除 了 ， 包 括 存放 在 系统 表 中 的 这 个 keysace 





10.5 对 集群 进行 负载 均衡 














如 果 你 发 现 集群 变 得 不 均衡 了 ， 可 能 是 因为 茶 个 区 间 内 插入 了 很 多 键 值 ， 可 以 重新 分 布 妆 


负载 均衡 与 流 


使 用 loadbalance 
开关 执行 Nodetool 会 将 一 个 节点 退 服 ， 并 将 它 的 令 牌 发 给 其 他 节点 ， 然 后 再 让 它 重 新 
命令 实际 就 是 退 服 和 自 举 两 步 独立 任务 的 一 个 封装 。 








如 果 你 有 很 多 数据 ， 负 载 均衡 会 消耗 很 长 的 时 间 。 可 以 通过 用 stream 
开关 调用 Nodetool 来 监控 负载 均衡 操作 。 


这 里 我 们 使 用 loadbalance 
参数 调用 Nodetool 来 把 1.5 节 点 上 的 数据 散布 到 其 他 节点 上 : 


$ bin/nodetool -host 192.168.1.5 loadbalance 





这 样 就 开始 了 负载 均衡 过 程 。 当 这 一 切 进行 的 时 候 ， 我 们 可 以 对 希望 检查 的 节点 使 用 St 
参数 ， 来 确定 其 他 节点 都 是 正常 的 : 























ebenQmorpheus$ bin/nodetool streams -h 192.168.1.5 
Mode: Leaving: streaming data to other nodes 


Not sending any streams. 
Not receiving any streams. 


ebenQmorpheus$ bin/nodetool streams -h 192.168.1.7 
Mode: Normal 





Not sending any streams. 
Not receiving any streams. 


旦 负载 均衡 完成 ， 我 们 可 以 从 日 志 中 看 到 负载 均衡 过 程 中 都 发 生 了 什么 。 











这 里 可 以 看 到 ，1.5 上 的 节点 在 开始 负载 均衡 之 后 ， 开 始 离开 集群 ， 把 它 的 数据 发 送 给 





DEBUG 10:46:58,727 Leaving: old token was 20846671262289044293293447172905 
883342 

DEBUG 10:46:58,746 Pending ranges: 

/192.168.1.7: 

(41654880048427970483049687892424207188, 

20846671262289044293293447172905883342] 


INFO 10:46:58,746 Leaving: sleeping 30000 for pending range setup 
DEBUG 10:46:59,323 Disseminating load info 
DEBUG 10:47:28,748 Node /192.168.1.5 ranges 
[(41654880048427970483049687892424207188, 208466712622890442932934471729 
05883342]] 
DEBUG 10:47:28,749 Range 

(41654880048427970483049687892424207188, 20846671262289044293293447172905883342] 
will be responsibility of /192.168.1.7 


DEBUG 10:47:28,750 Ranges needing transfer are 
[(41654880048427970483049687892424207188, 20846671262289044293293447172905883342]] 
INFO 10:47:28,750 Leaving: streaming data to other nodes 
DEBUG 10:47:28,753 Beginning transfer process to /192.168.1.7 for ranges 
(41654880048427970483049687892424207188, 20846671262289044293293447172905883342] 
INFO 10:47:28,753 Flushing memtables for Keyspace1i... 
INFO 10:47:28,753 Performing anticompaction 
DEBUG 10:47:28,754 waiting for stream aks. 
INFO 10:47:28,754 AntiCompacting [org.apache.cassandra.io.SSTableReader( 
pathz'/var/lib/cassandra/data/Keyspacedi/Standard2-1-Data.db')] 
DEBUG 10:47:28,755 index size for bloom filter calc for file 
/var/lib/cassandra/data/Keyspacei/Standard2-1-Data.db : 256 
DEBUG 10:47:28,755 Expected bloom filter size :128 
INFO 10:47:28,886 AntiCompacted to /var/lib/cassandra/data/Keyspaceli/stream/ 
Standard2-2-Data.db. 
239/239 bytes for 1 keys. Time: 134ms. 
INFO 10:47:28,887 AntiCompacting [] 
DEBUG 10:47:28,887 Expected bloom filter size : 128 
INFO 10:47:28,888 AntiCompacting [] 
INFO 10:47:28,892 Stream context metadata /var/lib/cassandra/data/ 
Keyspacel/stream/ 
Standard2-2-Index.db:55, 
1 sstables./var/lib/cassandra/data/Keyspacel1/stream/Standard2-2-Filter.db:325, 
1 sstables./var/lib/cassandra/data/Keyspaced1/stream/Standard2-2-Data.db:239 
DEBUG 10:47:28,893 Adding file /var/lib/cassandra/data/Keyspacei1/stream/ 
Standard2-2-Index.db to be streamed. 
DEBUG 10:47:28,893 Adding file /var/lib/cassandra/data/Keyspacei1/stream/ 
Standard2-2-Filter.db to be streamed. 
DEBUG 10:47:28,893 Adding file /var/lib/cassandra/data/Keyspacei1/stream/ 
Standard2-2-Data.db to be streamed. 


INFO 10:47:28,895 


DEBUG 

INFO 
DEBUG 
DEBUG 
DEBUG 


10: 
10: 
10: 
10: 
10: 


4T: 
4T: 
4T: 
4T: 
47 


28,895 
28,895 
29,309 
29,310 
:29,310 


Sending a stream initiate message to /192.168.1.7 


attempting to connect to /192.168.1.7 

Waiting for transfer to /192.168.1.7 to complete 
Running on default stage 

Received a stream initiate done message 


Streaming 55 length file /var/lib/cassandra/data/Keyspacel1/stream 


Standard2-2-Index.db 


DEBUG 10:47:29,316 
DEBUG 10:47:29,316 


Bytes transferred 55 
Done streaming /var/lib/cassandra/data/Keyspacei/stream/ 


Standard2-2-Index.db 


DEBUG 10:47:29,331 
DEBUG 10:47:29,332 


Running on default stage 
Deleting file /var/lib/cassandra/data/Keyspace1/stream/ 


Standard2-2-Index.db after streaming 


55/619 bytes. 
DEBUG 10:47:29,332 


Standard2-2-Filter. 


DEBUG 10:47:29,335 
DEBUG 10:47:29,335 


Standard2-2-Filter. 


DEBUG 10:47:29,345 
DEBUG 10:47:29,345 


Standard2-2-Filter. 


325/619 bytes. 
DEBUG 10:47:29,345 


stream/Standard2-2- 


DEBUG 10:47:29,347 
DEBUG 10:47:29,347 


Standard2-2-Data.db 


DEBUG 10:47:29,389 
DEBUG 10:47:29,390 


db 

Bytes transferred 325 

Done streaming /var/lib/cassandra/data/Keyspacel/stream/ 
db 

Running on default stage 

Deleting file /var/lib/cassandra/data/Keyspace1/stream/ 
db after streaming 


Streaming 239 length file /var/lib/cassandra/data/Keyspacei/ 
Data.db ] 

Bytes transferred 239 

Done streaming /var/lib/cassandra/data/Keyspacei/stream/ 


Running on default stage 
Deleting file /var/lib/cassandra/data/Keyspace1/stream/ 


Standard2-2-Data.db after streaming 


239/619 bytes. 
DEBUG 10:47:29,390 
INFO 10:47:29,390 
DEBUG 10:47:29,391 
DEBUG 10:47:29,392 
for Keyspace1 
DEBUG 10:48:59,322 
DEBUG 10:49:01,406 
INFO 10:49:01,406 
assume load 


INFO 10:49:01,407 


Signalling that streaming is done for /192.168.1.7 

Done with transfer to /192.168.1.7 

stream acks all received. 

No bootstrapping or leaving nodes -» empty pending ranges 


Disseminating load info 
Processing response on a callback from 1919970/192.168.1.7 
New token will be 134439585115453215112331952664863163581 to 


from /192.168.1.7 


re-bootstrapping to new token 


134439585115453215112331952664863163581 


INFO 10:49:01,407 
INFO 10:49:31,408 


DEBUG 10:49:31,408 
DEBUG 10:49:31,413 


DEBUG 10:49:31,414 


DEBUG 10:49:32,097 
DEBUG 10:49:32,098 


Joining: sleeping 30000 for pending range setup 
Bootstrapping 


Beginning bootstrap process 
Added /192.168.1.7/Keyspace1 as a bootstrap source 


Requesting from /192.168.1.7 ranges 
(41654880048427970483049687892424207188, 134439585115453215112331952664863163581] 


Running on default stage 
StreamInitiateVerbeHandler.doVerb STREAM INITIATE 10579 





Streaming 325 length file /var/lib/cassandra/data/Keyspacel1/strea 











我 们 来 更 进一步 看 看 Cassandra 如 何 做 到 负载 均衡 的 。 从 日 志 输 出 中 可 以 看 到 很 多 事情 
列 族 有 数据 ， 所 以 它 将 移动 它 的 索引 、 数 据 和 过 滤器 文件 到 其 他 节点 〈 本 例 中 是 1.7 贡 








如 果 使 用 ring 
参数 运行 Nodetoo1， 就 可 以 看 到 节点 已 经 分 配 到 了 新 的 区 间 ， 它 们 都 有 了 大 致 相等 的 




















Address Status Load Range Ring 


134439585115453215112331952664863163581 
192.168.1.7 Up 3.53 KB 41654880048427970483049687892424207188 |&lt--| 


192.168.1.5 Up 2.95 KB 134439585115453215112331952664863163581 | --»| 





10.6 ERTA 


退 服 
(decommissioning) 一 个 节点 就 是 将 一 个 节点 从 服务 中 撤 下 来 。 当 调用 Nodetool 
命令 时 ， 实 际 上 是 在 调用 Cassandra 的 StorageService 


类 的 decommission 
操作 。 


假设 环 上 有 两 个 节点 : 





ebenQmorpheus$ bin/nodetool -host 192.168.1.5 ring 

Address Status Load Range Ring 
134439585115453215112331952664863163581 

192.168.1.7 Up 4.17 KB 41654880048427970483049687892424207188 |&lt--| 

192.168.1.5 Up 3.59 KB 134439585115453215112331952664863163581 |-->| 





现在 希望 退 服 1.7 节 点 。 可 以 用 decommission 
参数 运行 Nodetoo1L， 将 一 个 节点 撤 出 服务 ， 就 像 这 检 


$ bin/nodetool decommission -h 192.168.1.7 























按照 配置 等 一 段 时 间 。 默 认 等 待 时 间 是 30 秒 。Nodetool 不 会 半 


DEBUG 13:59:00,488 Disseminating load info 

DEBUG 13:59:40,010 Node /192.168.1.7 state leaving, token 
41654880048427970483049687892424207188 

DEBUG 13:59:40,022 Pending ranges: 

/192.168.1.5: 

(134439585115453215112331952664863163581, 41654880048427970483049687892424207188] 


DEBUG 14:00:00,488 Disseminating load info 

DEBUG 14:00:10,184 Running on default stage 

DEBUG 14:00:10,184 StreamInitiateVerbeHandler.doVerb STREAM INITIATE 4084 
DEBUG 14:00:10,187 no data needed from /192.168.1.7 

DEBUG 14:00:10,551 Node /192.168.1.7 state left, token 
41654880048427970483049687892424207188 





DEBUG 14:00:10,552 No bootstrapping or leaving nodes -> empty pending ranges for 
Keyspacei 
INFO 14:00:18,049 InetAddress /192.168.1.7 is now dead. 











gossiper 告 诉 1.5 节 点 ，1.7 节 点 处 于 离开 状态 。 在 这 个 场景 之 下 ， 因 为 数据 已 经 均衡 
命令 ，1 .7 节点 就 不 会 出 现在 列表 中 了 。 








同时 ， 在 我 们 正在 退 服 的 节点 的 日 志 里 ， 我 们 会 看 到 这 样 的 输出 : 





INFO 13:37:36,299 InetAddress /192.168.1.5 is now UP 

INFO 13:59:40,929 Leaving: sleeping 30000 for pending range setup 

INFO 14:00:11,286 Leaving: streaming data to other nodes 

INFO 14:00:11,318 Flushing memtables for Keyspace1i... 

INFO 14:00:11,318 Performing anticompaction 

INFO 14:00:11,333 AntiCompacting [org.apache.cassandra. 
io.SSTableReader(path-'c 
:NvarNlibNcassandraNdataNKeyspacedNStandard2-2-Data.db'),org.apache.cassandra.io 
.SSTableReader(pathz'c:NvarMlibNcassandraNdataNKeyspaced1NStandard2-1-Data.db')] 
INFO 14:00:11,349 AntiCompacting [] 

INFO 14:00:11,364 AntiCompacting [] 

INFO 14:00:11,411 Stream context metadata 

INFO 14:00:11,427 Sending a stream initiate message to /192.168.1.5 ... 

INFO 14:00:13,455 Shutting down MessageService... 

INFO 14:00:13,455 Shutdown complete (no further commands will be processed) 
INFO 14:00:13,470 Decommissioned 

INFO 14:00:13,470 MessagingService shutting down server thread. 














这 个 节点 开始 发 现 了 1,5 节 点， 然后 收 到 了 退 服 命令 。 它 进入 离开 状态 ， 然 后 睡 


zu 


民 30 秒 ， 























如 果 你 在 一 个 不 能 被 退 服 的 节点 调用 退 服 命令 〈 比 如 节点 还 不 是 环 的 一 部 分 ， 或 者 是 唯 





关闭 gossiper， 这 样 就 不 会 收 到 更 多 的 数据 了 。 








关闭 这 个 节点 的 消息 服务 。 














关闭 SEDA 阶 段 管理 器 ， 因 为 不 会 接受 更 多 的 任务 在 阶段 间 移动 了 。 











状态 设置 为 “decommissioned”。 











存储 服务 确定 哪些 可 用 节点 对 于 需要 传输 数据 的 区 间 比 较 合 适 。 将 数据 流 到 其 他 节 























一 旦 接收 节点 确认 数据 传输 成 功 ， 没 有 其 他 数据 要 传输 了 ， 服 务 器 就 可 以 离开 环 了 

















Uem 
需要 当心 的 是 ， 数 据 不 会 自动 从 退 服 节点 上 删除 。 如 果 你 决定 在 环 里 重新 加 入 先前 











10.7 更 新 节点 


10.7.1 删除 令 牌 


如 果 你 想 删 除 一 个 令 牌 ， 可 以 使 用 Nodetool 来 进行 。 


直接 执行 这 样 一 条 
命令 的 参数 是 将 要 册 








$ bin/nodetool -h 127.0.0.1 removetoken 42218023250148343019074760608074740927 





如 果 执 行 成 功 ， 客 户 端 会 无 评论 直接 返回 。 注 意 ， 你 不 能 删除 一 个 节点 自己 的 令 牌 ， 因 ; 


10.7.2 JE Bi 





压 紧 闵 值 是 一 个 数值 ， 指 一 次 小 压 紧 进行 之 前 ， 队 列 中 等 待 被 压 紧 的 SSTable 的 数量 














要 获得 一 个 节点 当前 的 压 紧 闪 值 ， 可 以 使 用 Nodetool1 的 getcompactionthre- s 





ebenQmorpheus$ bin/nodetool -h 192.168.1.5 getcompactionthreshold 


Current compaction threshold: Min-4, Max-32 





10.7.3 在 一 个 工作 的 集群 中 改变 列 族 





如 果 需 要 ， 可 以 在 一 个 运行 中 的 Cassandra 集 群 中 添加 、 删 除 或 重 命名 列 族 。 下 面 是 操 


使 用 Nodetool， 运 行 drain 来 清空 commit log. 











关闭 Cassandra 并 确保 commit 1og 中 没有 剩余 的 数据 。 











出 除 SSTable 文 件 。 这 些 文件 存在 于 数据 目录 中 ， 名 为 <cf>-Data.db、<cf>-I 





10.8 小 结 








本 章 中 ， 我 们 看 了 一 些 与 Cassandra 交 互 ， 进 行 日 常 维 护 任 务 的 方法 。 我 们 知道 了 如 何 








第 11 章 性 














本 章 中 ， 我 们 将 学 习 如 何 对 Cassandra 进 行 调 优 以 改进 性 能 。 配 置 文件 中 有 很 多 设置 可 











作为 一 个 通用 的 规则 ， 必 须要 注意 ， 简 单 直接 地 把 一 个 节点 加 入 到 集群 中 并 不 会 改善 性 和 























我 们 还 会 看 到 如 何 使 用 Cassandra 自 带 的 Python 压 力 测试 工具 运行 一 个 合理 也 





11.1 数据 存储 



































Cassandra 在 处 理 更 新 操作 时 会 写 两 类 文件 : commit log 和 数据 文件 。 要 了 解 如 何 配 





commit 1og 可 以 看 做 是 短期 存储 。Cassandra 接 收 到 更 新 之 后 ， 每 个 写 值 会 立刻 写 入 








数据 文件 
是 指 有 序 字 符 串 表 (SSTable) 。 和 commit 1og 不 同 ， 数 据 是 异步 写 入 这 个 文件 的 。 














读 操作 可 以 通过 内 存 中 的 缓存 进行 ， 在 这 种 情况 下 不 会 直接 读 取 磁 盘 上 的 数据 文件 。 如 














在 将 所 有 退 加 写 入 的 数据 成 功 刷 写 到 特定 的 数据 文件 中 后 ，commit loge z HER k 








INFO 18:26:11,497 Enqueuing flush of Memtable-LocationInfo@26830618(52 
bytes, 2 operations) 

INFO 18:26:11,497 Writing Memtable-LocationInfoQ26830618(52 bytes, 2 
operations) 

INFO 18:26:11,732 Completed flushing /var/lib/cassandra/data/system/ 
LocationInfo-2-Data.db 

INFO 18:26:11,732 Discarding obsolete commit log 


CommitLogSegment(/var/lib/cassandra/commitlog/CommitLog1278894011530.10g) 


然后 ， 如 果 查 看 commit 1og 的 目录 ， 就 会 发 现 文件 已 经 被 删除 了 。 











默认 情况 下 ，commit log 和 数据 文件 被 存放 在 下 面 的 位 置 : 





&ltCommitLogDirectory>/var/lib/cassandra/commitlog&lt/CommitLogDirectory> 


&ltDataFileDirectories> 


&ltDataFileDirectory>/var/lib/cassandra/data&lt/DataFileDirectory> 
&lt/DataFileDirectories> 








人 





你 可 以 改变 这 些 值 来 改变 数据 文件 和 commit log 存 放 的 位 置 。 如 果 你 希望 ， 可 以 指定 


aa 
wW 
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TE 











windows 下 ， 即 使 它们 指向 默认 位 置 ， 也 不 需要 改变 这 些 值 ，Windows 会 自动 调 








为 了 测试 ， 你 可 能 找 不 到 要 改变 这 些 位 置 的 理由 


























。 然 而 ， 实 际 部 署 的 建议 是 ， 将 数据 文人 





11.2 回复 超时 





回复 超时 (reply timeout) 设置 的 是 Cassandra 在 等 待 其 他 节点 响应 其 请 求 的 超时 
TARA CÉEYAML T Énpc timeout in ms 
) 。 默 认 情 况 下 ， 这 个 值 是 5 900， 也 就 是 5 秒 钟 。 

















11.3 commit log 





你 可 以 设置 在 停止 同 commit 1Log 追 加 写 数据 并 创建 新 文件 之 前 ， 人 允许 它 长 到 多 大 的 值 。 


这 个 值 通过 CommitLogRotationThresholdInMB 


元 素 设置 (在 YAML 中 是 commitlog_rotation threshold in mb 
) ， 默 认 值 为 128 MB. 














男 一 个 commit log 相 关 的 设置 是 sync 操 作 ， 由 commitlog_sync 

元 素 设置 。 这 个 设置 有 两 个 可 能 的 选项 periodic 

或 batch 

. periodic 

是 默认 值 ， 它 的 含义 是 ， 服 务 器 按照 一 个 特定 的 时 间 间 隔 ， 将 写 操作 持久 化 。 当 服务 器 









































为 了 确保 Cassandra 集 群 的 持久 性 ， 可 能 需要 修改 这 个 设置 。 








如 果 commit 1og 设 置 为 batch 
， 它 将 会 在 数据 同步 写 入 到 磁盘 上 之 前 一 直 阻 塞 写 操作 (Cassandra 在 commit log 














你 可 以 把 这 个 设置 属性 从 periodic 
改 为 batch 
， 指 定 Cassandra 必 须 在 响应 写 操作 之 前 将 数据 刷 写 到 硬盘 上 。 改 变 这 个 值 需要 进行 
设置 为 batch 
， 就 必须 给 CommitLogSyncBatchWindowInMS 


个 合理 
































如 果 你 决定 使 用 batch 
模式 ， 需 要 把 commit log 分 到 独立 的 设备 上 来 降低 性 能 影响 。 不 论 何 时 ， 将 commit 
模式 。 











11.4 memtable 




















Wu HiEXTmemtable/AbZm 








每 个 列 族 都 有 一 个 单独 的 memtable 与 之 相关 联 ， 有 一 些 t 


元 系 (在 YAML 中 是 binary_memtable_ throughput in mb 
) 设置 的 。 注 意 ， 这 个 值 是 memtable 本 身 在 内 存 中 的 大 小 ， 而 不 是 占用 的 堆 大 小 ， 








你 需要 平衡 设置 这 个 参数 和 MemtableObjectCountInMillions 
， 这 是 memtable 被 刷 写 到 硬盘 之 前 ， 在 其 中 可 以 存储 的 列 值 数量 的 闵 值 。 




















个 相关 设置 是 nemtable_throughput_in_mb 
。 这 是 一 个 memtable 在 被 刷 写 到 磁盘 、 成 为 SSTable 之 前 可 以 存储 的 最 大 列 数 。 默 认 

















你 还 可 以 配置 emtab1le 在 刷 写 到 硬盘 之 后 ， 可 以 在 内 存 中 保存 多 久 。 这 个 值 通过 memt 
元 素 设置 。 当 刷 写 执行 时 ， 它 会 写 入 一 个 刷 写 缓冲 区 ， 也 可 以 使 用 fush_data_bu 


配置 这 个 绥 冲 区 的 大 小 。 



































另 一 个 用 于 调整 nemtable 的 相关 元 素 是 memtable flush writers 
。 这 个 设置 的 默认 值 是 1， 它 是 当 memtable 写 入 磁盘 时 需要 使 用 的 线程 数量 。 




















11.5 并 发 


REN 
ZI 




















Cassandra 和 很 多 数据 存储 系统 的 一 大 不 同 ， 就 是 提供 了 比 读 性 能 更 
ficoncurrent writes 
TE "T 














。 一般 来 说 ，Cassandra 默 认 给 出 的 设置 就 非常 不 错 。 但 你 可 能 还 是 需要 在 启动 服 
设置 ， 因 为 concurrent reads 





器 核 两 个 线程 的 时 候 是 最 优 的 。 默 认 情况 下 ， 这 个 设置 是 8， 假 设 服务 





























设置 在 每 个 处 到 


concurrent writes 
设置 的 形式 有 些 不 同 。 它 应 该 设 为 将 会 并 发 访问 到 服务 器 的 客户 端的 数量 。 如 果 将 Cas 











11.6 ZF 


有 很 多 缓存 相关 的 设置 ， 既 有 Cassandra 的 设置 ， 也 有 操作 系统 级 的 设置 。 绥 存 可 能 会 

















cassandra 中 有 两 类 主要 的 缓存 ; 行 缓存 和 键 值 缓存 。 行 缓存 会 缓存 整 行 数据 〈 它 们 所 











因而 ， 绥 存 策略 应 该 根据 下 面 几 个 条 件 确 员 











考虑 查询 ， 使 用 更 适合 查询 方式 的 缓存 类 型 。 





考虑 堆 内 存 和 缓存 尺寸 的 比例 ， 不 要 让 缓存 占 满 堆 容量 。 














考虑 行 尺寸 和 键 值 尺 寸 。 通 常 键 值 都 会 比 整 行内 容 小 很 多 。 





keys_cached 
设置 的 是 存储 在 内 存 之 中 的 键 位 置 一 不 是 键 值 一 的 数量 。 这 个 值 可 以 指定 一 个 小 数 〈0 














keys_cached 





是 一 个 列 族 的 设置 ， 茶 些 列 族 比 其 他 的 列 族 更 常 被 访问 ， 所 以 不 同 的 列 族 可 以 有 不 











这 个 设置 会 消耗 很 多 内 存 ， 但 是 如 果 你 的 位 置 已 经 不 是 热点 了 ， 可 以 考虑 做 个 折 中 。 


disk access mode 


的 目的 是 允许 将 文件 映射 到 内 存 ， 这 样 操作 系统 可 以 缓存 读 操 作 ， 这 样 就 可 以 降低 Cas 
是 最 没 用 的 设置 之 一 ， 而 且 目 前 也 无 法 按照 预想 的 那样 工作 。 这 可 能 会 在 将 来 有 所 改进 

















你 还 可 以 在 服务 器 启动 时 就 填 入 行 缓存 。 要 这 人 么 做 ， 可 以 使 用 preload_row_cach 
元 素 。 这 个 设置 默认 是 false 








， 不 过 可 以 把 它 设置 为 true 
来 改进 性 能 。 代 价 是 ， 如 果 要 预 装 载 很 多 列 族 的 数据 ， 自 举 的 时 间 可 能 会 更 长 。 





rows_cached 
设置 指定 了 将 被 缓存 的 行 数 。 默 认 情 况 下 ， 这 个 值 是 0， 意 味 着 不 使 用 行 缓存 ， 使 用 行 














11.7 绥 冲 区 尺寸 

















缓冲 区 尺寸 代表 执行 茶 些 操作 时 分 配 的 内 存 大 小 。 下 面 是 这 些 设置 的 一 个 概览 : 


flush data buffer size in mb 





这 个 值 默认 设 为 322MB， 这 是 用 于 将 memtab1le 刷 写 到 磁盘 上 的 缓冲 区 尺寸 。 


flush index buffer size in mb 











这 个 值 默认 设 为 8MB。 如 果 每 个 键 值 只 定义 了 很 少 的 列 ， 可 以 考虑 增加 索引 缓存 的 





sliced buffer size in kb 


依赖 于 查询 的 变化 程度 有 多 高 ， 这 个 设置 可 能 没有 太 大 用 处 。 它 允许 你 制定 一 个 KB 

















11.8 使 用 Python 压力 测试 


Cassandra 附 带 了 一 个 称 为 py_stress 


的 受 欢迎 的 工具 ， 可 以 用 于 对 Cassandra 进 行 压力 测试 。 要 运行 py_stress 
， 可 以 进入 <cassandra-home>/contrib 目 录 。 你 需要 先 阅 读 README .txt 文件 ，j 















































在 运行 这 个 工具 之 前 还 有 几 个 工作 要 做 。 首 先 确定 配置 中 还 有 默认 keyspace (Keysp 
) 并 加 载 了 它 ， 因 为 这 个 工具 会 执行 在 默认 的 列 族 定义 之 上 。 





























之 后 ， 你 需要 生成 Python Thrift 接 口 ， 这 可 能 还 需要 几 步 操作 。 


11.8.1 生成 Python Thrift 接 口 























在 运行 压力 工具 之 前 ， 我 们 需要 确定 已 经 有 Python 的 Thrift 接 口 可 用 了 《因为 这 是 一 


No module named thrift,transport 












































还 要 确定 已 经 在 系统 中 安装 Python 了 。 要 验证 是 否 安装 了 Python， 打 开 终端 窗口 ， 键 
$python 


， 你 应 该 可 以 看 到 类 似 下 面 的 输出 : 


eben@morpheus$ python 

Python 2.6.5 (r265:79063, Apr 16 2010, 13:09:56) 

[GCC 4.4.3] on linux2 

Type "help", "copyright", "credits" or "license" for more information 
































到 它们 提供 的 最 新 的 多 线程 能 力 ， 这 











获得 Thrift 











要 获得 Thrift, 从 http://incubator.apache.org/thrift 
下 载 ， 你 将 得 到 一 个 类 似 thrift-0.2.0-incubating.tar .gz 的 文件 。 将 它 角 
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WU LinuxA4BhR. "nDebianflUbuntu^E, Hit Ati hi mi e fs FH THIS 





译注 1: 这 个 命令 仅 适 用 于 使 用 APT 包 各 

















In 
| 


$ sudo apt-get install -y libboost-dev libevent-dev python-dev automake 
pkg-config 
libtool flex bison 








如 果 系 统 中 没有 安装 好 C++ Boost 库 ，Thrift 可 和 常 工作 。 可 以 从 http://ww 
下 载 Boost。 之 后 ， 在 Boost 目 录 中 ， 运 行 如 下 命 


$ ./bootstrap.sh 
$ ./bjam 


这 将 编译 和 安装 Boost。 现 在 ， 要 编译 Thrift， 可 以 以 root 权 限 在 Thrift 目 录 中 运行 














$ ./bootstrap.sh 
$ ./configure 
$ ./make 


$ ./make install 
$ cd lib/py 
$ ./make 





现在 运行 命令 $which thrift 
， 就 会 告诉 你 Thrift 安 装 到 的 路 答 了 。 在 我 的 系统 里 是 /usr/local/bin/thrift。 


aa 


LA 

Qt 
* + 
to. 


在 Ubuntu Linux 中 ， 在 安装 Thrift 时 可 以 看 到 这 样 一 个 错误 “autoscan: not 








$ sudo apt-get install automake 


可 以 通过 
$which autoscan 





来 查看 是 否 安装 了 autoscan 了 ， 如 果 返 回 值 是 空 ， 就 是 还 没有 安装 它 。 











如 果 Thrift 已 正确 安装 了 ， 应 该 可 以 运行 Thrift 程 序 并 看 到 帮助 输出 ; 








$ thrift -version 
Thrift version 0.2.0-exported 


把 site-package 目 录放 在 Python 路 径 中 : 


$ export PYTHONPATH-/usr/lib/python2.6/site-packages/ 





现在 可 以 进入 <cassandra-home> 目 录 了 。 运 行 下 面 的 命令 来 为 Python 生 成 Thrift 


$ ant gen-thrift-py 








你 应 该 可 以 得 到 一 个 编译 成 功 的 消息 。 现 在 ，<cassandra-home>/interfaces/thr 


11.8.2 运行 Python 压力 测试 


现在 一 切 设 置 妥当 ， 可 以 运行 压力 测试 了 。 进 入 <assandra-home>/contrib/py_st 
stress.py 


对 本 机 运行 测试 





如 果 看 到 的 消息 表示 压力 测试 无 法 连接 Jocalhost :9166 


那 你 有 几 种 选择 。 首 先 ， 表 




















参数 来 告诉 脚本 连接 哪个 服务 器 。 


$ stress.py -d 192.168.1.5 


aa 


LA 
uM : 
USA 





你 可 以 运行 stress .py 








xc Cassandrafi 


-h 














让 我 们 开始 


来 查看 压力 测试 脚本 的 使 用 方法 。 


这 个 测试 将 会 扣 





ji 入 一 百 万 个 值 ， 


实 启 动 了 ， 并 且 在 监听 这 个 地 址 和 端口 。 
n. 

















然后 停止 。 在 一 个 装备 了 Intel :7 处 理 器 《类 似 8 核 的 





ebenQmorpheus$ ./stress.py -d 192.168.1.5 -o insert 


total,interval op rate,avg latency,elapsed time 


196499, 19649,0. 
370589,17409,0. 
.00295883878841, 30 
.00438663874102, 40 
. 00312562838215, 50 
. 0029109908417, 60 


510076, 13948, 0 
640813, 13073, 0 
798070, 15725,0 
950489, 15241,0 


1000000, 4951,0. 





0024959407711, 10 
00282591440216, 20 


00444872583334, 70 





pm 


我 来 解释 一 下 。 我 们 做 的 事情 是 将 一 











重 入 到 一 个 未 经 调 优 的 Cassandra 有 上 服务器 





ebenQmorpheus$ ./stress.py -d 192.168.1.5 -0 insert -t 10 


total,interval op rate,avg latency,elapsed time 


219217,21921,0.000410911544945, 10 
427199,20798,0.000430060066223, 20 


629062,20186,0.000443717396772,30 
832964, 20390, 0 . 000437958271074, 40 
1000000,16703,0.000463042383339, 50 


这 里 ， 使 用 了 -七 
参数 ， 指 定 一 次 使 用 1 个 线程 。 这 里 显示 ， 在 50 秒 钟 内 插入 了 一 百 万 条 记录 ， 大 约 每 





























应 该 多 次 运行 测试 来 得 到 根据 硬件 设置 最 合适 的 线程 数 。 根 据 处 理 器 核 数 ， 如 果 使 用 





现在 已 经 把 数据 放 入 到 数据 库 中 了 ， 让 我 们 使 用 测试 工具 来 读 取 一 些 


$ ./stress.py -d 192.168.1.5 -o read 


total,interval op rate,avg latency,elapsed time 
103960,10396,0.00478858081549, 10 
225999, 12203, 0 . 00406984714627, 20 
355129, 12913, 0 . 00384438665076, 30 
485728, 13059, 0.00379976526221, 40 
617036, 13130, 0 . 00378045491559, 50 
749154, 13211, 0.00375620621777, 60 
880605, 13145, 0 . 00377542658007, 70 
1000000, 11939, 0 . 00374060139004, 80 


可 以 看 到 ，Cassandra 的 读 速 度 不 像 写 速度 那么 快 ， 花 费 了 大 约 80 秒 才 读 出 一 百 万 条 记 





11.9 启动 和 JVM 设 置 





cassandra 人 允许 你 配置 很 多 关于 如 何 启 动 、Java 需 要 分 配 多 少 内 存 之 类 的 选项 。 在 本 


如 果 使 用 Windows， 则 启动 脚本 是 cassandra.bat; 而 如 果 使 用 Linux， 则 应 该 是 ca 


JVM 调 优 





为 了 得 到 更 好 的 性 能 ， 可 以 对 传 给 JVM 的 启动 参数 进行 调 优 。 关 键 的 JVM 选 项 已 经 包含 在 


表 11-1 Java 性 能 调 优 选项 





= EE 这 两 个 设置 分 别 默认 为 256 MB 和 1 GB。 要 调 优 这 个 设置 ， 可 以 把 它 
2 EN 高 ， 并 设置 为 一 样 的 值 (参考 后 面 的 提示 ) 





































































































默认 情况 下 吏 用 关 打 开 了 断言 。 把 -ea 改 为 -da KAW E 
可 以 提升 性 
Java 对 分 成 了 两 块 对 象 区 域 : 年 轻 的 和 年 老 的 。 年 轻 空间 中 部 分 用 
象 分 配 为 “伊甸园 ” Ceden space) ) ,一 部 分 用 于 存放 还 在 使 用 也 
象 。 年 老 对 象 是 那些 经 历 过 几 次 垃圾 回收 仍然 被 引用 的 对 象 。 存 活 比 例 
的 堆 空间 里 ，eden space 对 survivor space 的 比例 。 如 果 应 用 中 会 双 
存活 比例 Csurvivor ratio) 很 多 新 对 象 ， 但 生存 周期 较 短 ， 就 可 以 把 这 个 值 设 高 一 些 。 反 之 ， 如 果 应 用 
部 分 都 是 长 期 存活 的 对 象 ， 就 应 该 把 这 个 值 设 低 一 些 。Cassandra 这 个 设置 

默认 值 为 8、 也 就 是 说 ，eden 与 survivor 的 空间 比例 是 1:8 (每 个 survivor 

空间 的 尺寸 将 是 eden 的 1/8) 。 这 个 比例 相当 低 ， 因 为 nemtable 里 的 对 象 

的 生存 时 间 都 很 长 。 这 个 设置 可 以 和 MaxTenuringThreshold 一 起 调整 


每 个 Java 对 象 的 标题 处 都 有 一 个 年 龄 域 ， 表 示 它 在 里 被 复制 的 次 数 。 它 
门 每 经 历 一 次 年 轻 代 的 垃圾 回收 就 会 复制 一 次 ， 而 这 上 是 有 开销 的 。 因 为 长 
MaxTenuringThreshold 期 存在 的 对 象 可 能 会 被 复制 很 多 次 ， 调试 这 个 值 可 以 改进 性 能 。 默 认 情 况 下 ， 
Cassandra 设置 这 个 值 为 1。 可 以 把 它 设置 为 0， 这 样 会 立刻 I 把 存活 过 一 次 的 
年 轻 代 GC 的 对 象 放 入 年 老 代 


这 个 选项 指示 JVM 的 垃圾 收集 (garbage collection, GCO 策略 ， 特 别 地 ， 

它 启动 了 并 发 标记 算法 。 这 个 设置 会 占用 更 多 的 R A M 和 更 多 的 CPU 的 资源 ， 

Unda. 的 最 小 人 和 
ix^ RM 该 将 最 小 值 和 最 大 值 设 目 同 值 ， 这 样 防 止 JVM 花费 很 多 

有 naaeaeepsc 时 间 来 增长 堆 的 尺寸 。 也 可 以 使 用 -XX:+UseParalle1l6C， 这 可 以 利用 多 处 理 
器 机 器 的 资源 。 这 样 能 有 更 好 的 峰值 性 能 ， 但 会 有 偶尔 的 停顿 。 不 要 对 
Cassandra 使 用 Serial GC 











断言 Cassertion) 










































































































































































































































































































































































































































































































































































































































































在 inclLude 主 配置 文件 中 的 主要 参数 包装 了 Java 的 设置 。 比 如 ， 默 认 设置 最 大 Java 挫 








uM 


32 位 JVM 堆 尺寸 的 理论 最 大 值 是 4 GB。 然 而 ， 不 要 简单 地 将 JVM 设 置 到 可 用 的 全 部 
获得 更 多 信息 。 





























调试 这 些 设置 可 以 让 压力 测试 程序 表现 更 好 。 比 如 ， 我 的 机 器 使 用 如 下 设置 可 以 比 默认 t 


JVM_OPTS=" N 
-da N 
-Xms1024M \ 
-Xmx1024M \ 


-XX:*UseParallelGC \ 
-XX:«cMSParallelRemarkEnabled \ 
-XX:SurvivorRatio-4 \ 
-XX:MaxTenuringThreshold-0 














在 进行 性 能 调 优 的 时 候 ， 一 个 好 的 方法 是 先 只 设置 最 大 和 最 小 堆 空间 ， 而 不 设置 其 他 值 。 


aa 
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对 于 Java 6 性 能 调 优 (Java 6 和 之 前 版 本 的 操作 有 些 不 同 ) ， 可 以 参考 http:// 


1 





译注 1: 译 者 曾 将 此 文 译 为 中 文 : http://wangxu.me/blog/p/209， 供 参考 。 























通常 ， 如 果 你 遇 到 无 可 用 内 存 的 错误 ， 可 能 需要 进行 堆 来 转 储 它 的 状态 。 如 果 内 存 错误 i 





-XX:CMSInitiatingoccupancyFraction=88 \ 
-XX:+HeapDumpOnOutofMemoryError \ 


-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -verbose:gc \ 





11.10 小 结 


在 本 章 中 ， 我 们 看 了 cassandra 中 可 用 的 有 助 性 能 调 优 的 设置 ， 包 括 缓存 设置 、 内 存 设 








如 果 你 对 Linux 系 统 不 太 熟 悉 ， 又 希望 在 Linux 上 运行 Cassandra (这 是 推荐 的 方式 ) 
找到 。 





终极 的 性 能 提升 手段 就 是 在 能 负担 得 起 的 范围 内 ， 配 置 很 多 内 存 以 及 尽量 多 的 CPU 核 。 








第 12 章 ”集成 Hadoop 


Jeremy Hanna 


随 着 越 来 越 多 的 公司 和 组 织 开 始 采 纳 Ccassandra 这 类 技术 ， 他 们 也 开始 寻找 用 于 对 数据 




















Hadoop 看 起 来 就 是 开源 海量 数据 处 理 框 架 的 不 二 之 选 。 其 中 有 开源 的 MapReduce 实 现 ， 














在 本 章 中 我 们 将 探讨 如 何 让 Cassandra 和 Hadoop 共 同 工 作 。 首 先 ， 我 们 简 述 一 下 Apac 





12.1 何 为 Hadoop 


如 果 你 已 经 很 熟悉 Hadoop T, WE UREK. Hadoop (http://hadoop.apach 
) 是 一 组 用 于 分 布 式 处 理 大 量 数据 的 开源 项 目 。 其 中 的 Hadoop 分 布 式 文件 系统 CHDFS 






































Google 发 现 ， 很 多 内 部 项 目 组 都 在 实现 类 似 的 功能 ， 用 以 分 布 式 解决 问题 。 他 们 看 到 ， 





Doug Cutting 决 定 写 一 个 开源 应 用 ， 基 于 Goog1le 文 件 系统 (http://1labs.google 
) 和 MapReduce (http://1labs.google.com/papers/mapreduce.html) , Ha 








Cassandra 内 建 了 对 Hadoop MapReduce 的 支持 (http://hadoop.apache.org/m 
) 。 





12.2 使 用 MapReduce 


本 节 详 述 如 何 使 用 Java 语 言 对 存储 在 Cassandra 中 的 数据 写 一 个 简单 的 MapReduce 程 


aa 


à 9 
a 3 
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本 节 中 给 出 的 字数 统计 (word count) 例子 可 以 在 Cassandra 源 代码 的 contrib 








为 方便 起 见 ， 字 数 统计 MapReduce 程 序 会 运行 在 一 个 Cassandra 本 地 节点 。 关 于 如 何 本 


Cassandra Hadoop 源 码 包 





cassandra 有 一 个 用 于 与 Hadoop 集 成 的 Java 源 码 包 ， 称 为 org.apache.cassan 
， 其 中 包括 如 下 内 容 。 


ColumnFamilyInputFormat 





我 们 将 主要 用 这 个 类 来 让 Hadoop 从 Cassandra 交 互 读 取 数 据 。 它 扩展 了 Hadoop 
抽象 类 。 





ConfigHelper 





一 个 用 于 配置 Cassandra 相 关 信息 的 辅助 类 ， 比 如 服务 器 节点 位 置 、 端 口 以 及 特 员 





ColumnFamilySplit 


这 个 类 扩展 了 Hadoop 的 InputSplit 
抽象 类 ， 对 Cassandra 数 据 进 行 分 解 。 它 还 向 Hadoop 提 供 数 据 的 位 置信 息 ， 这 术 

















ColumnFamilyRecordReader 





从 Cassandra 读 取 单 条 记录 的 层 。 它 扩展 了 Hadoop 的 RecordReader 
抽象 类 。 





此 外 ， 在 Hadoop 包 里 ， 还 有 一 些 将 数据 输出 到 Cassandra 的 相似 的 类 ， 但 是 在 本 书写 





12.3 运行 字数 统计 例子 





字数 统计 是 在 MapReduce 论 文中 给 出 的 一 个 例子 ， 是 很 多 初学 者 学 习 这 个 框架 的 起 点 。 





首先 ， 我 们 需要 一 个 Mapper 
类 ， 如 例 12 -1 所 示 。 


例 12 -1: 
TokenizerMapper . java% 


public static class TokenizerMapper extends Mapper&ltbyte[], 
SortedMap&lt byte[], IColumn», Text, IntWwritable» ( 


private final static Intwritable one = new IntWritable(1); 
private Text word - new Text(); 
private String columnName; 


public void map(byte[] key, SortedMap&ltbyte[], IColumn» columns, Context 
context) 
throws IOException, InterruptedException { 


IColumn column = columns.get(columnName.getBytes()); 
String value - new String(column.value()); 
StringTokenizer itr - new StringTokenizer(value); 


while (itr.hasMoreTokens()) { 
word.set(itr.nextToken()); 
context.write(word, one); 


j 


protected void setup(Context context) 
throws IOException, InterruptedException ( 
this.columnName - context.getConfiguration().get("column name"); 


熟悉 MapReduce 程 序 的 读者 会 发 现 ， 这 个 mapper 看 起 来 十 分 眼熟 。 在 这 里 ，mapper 的 
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""mapperikTC EZ FJ, ^ IColumn 


都 需要 类 型 转换 为 SUperColumn 
， 其 中 会 包含 内 髓 的 列 信息 。 








接 下 来 我 们 看 一 下 字数 统计 程序 的 Reducer 
的 实现 ， 如 例 12-2 所 示 。 


例 12-2: 
Reducer 的 实现 


public static class IntSumReducer extends 
Reducer&lt Text, Intwritable, Text, Intwritable> { 


private Intwritable result = new IntWritable(); 
public void reduce(Text key, Iterable&lt IntWritable» values, Context context) 
throws IOException, InterruptedException { 


int sum - 0; 


, 
for (IntWwritable val : values) ( 
sum += val.get(); 


result.set(sum); 
context.write(key, result); 











在 这 个 reducer 实 现 中 ， 没 有 什么 奇怪 的 ， 没 有 Cassandra 特 有 的 东西 。 











最 后 看 看 运行 MapReduce 程 序 的 类 ， 如 例 12-3 所 示 。 


例 12 -3: 
WordCount 类 运行 这 个 MapReduce 程 序 


public class WordCount extends Configured implements Tool { 


public int run(String[] args) throws Exception { 


Job job - new Job(getConf(), "wordcount"); 
job.setJarByClass(WordCount.class); 
job.setMapperClass(TokenizerMapper.class); 
job.setCombinerClass(IntSumReducer.class); 
job.setReducerClass(IntSumReducer.class); 
job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(IntWritable.class); 
job.setInputFormatClass(ColumnFamilyInputFormat.class); 
FileOutputFormat.setOutputPath(job, new Path("/tmp/word count")); 
ConfigHelper.setThriftContact(job.getConfiguration(), "localhost", 9160); 
ConfigHelper.setInputColumnFamily( 

job.getConfiguration(), "Keyspaced1", "Standardi1"); 


SlicePredicate predicate - new SlicePredicate().setColumn names( 
Arrays.asList(columnName.getBytes())); 


ConfigHelper.setInputSlicePredicate(job.getConfiguration(), predicate); 


job.waitForCompletion(true); 


return 0; 





关于 这 个 和 一 般 样板 类 字数 统计 不 完全 相同 的 NordCount 


类 




















， 有 些 事情 还 是 值得 一 提 的 。 我 们 需要 设置 InputFormat 


为 Cassandra 的 ColumnFamilyInputFormat 


, 








以 及 制定 mapper 要 查找 的 列 名 。Cassandra 包 含 了 一 个 称 为 ConfigHelper 





























的 辅助 类 ， 提 供 了 设置 所 需 属 性 的 方法 ， 比 如 Thrift 连 接 信 息 〈 服 务 器 和 端口 ) 、Kke 


12.3.1 将 数据 输出 到 Cassandra 


在 这 个 例子 里 ，reducer 使 用 了 FileOutputFormat 


输 





TEE 


出 它 的 结果 。 像 它 的 名 字 那 样 ，FileOutputFormat 














将 结果 写 到 文件 系统 中 去 。 在 9 .7 版 本 中 ， 将 有 一 个 基于 Cassandra 的 OutputFor 
实现 。 在 本 章 写作 的 时 候 ， 一 些 实现 细节 还 没有 最 终 完 成 。 对 于 内 建 的 输出 格式 的 更 新 


o 











不 过 ， 也 有 可 能 直接 在 Reducer 


里 

















通过 Thrift (或 高 级 客户 端 ) 直接 将 数据 写 入 到 Cassandra 中 。 在 这 个 例子 里 ， 这 


12.3.2 Hadoop 流 











字数 统计 MapReduce 例 子 是 用 Java 写 成 的 。Hadoop 流 (streaming? 是 Hadoop 提 供 








12.4 MapReduce 之 上 的 工具 











MapReduce 是 为 开发 者 提供 的 一 个 伟大 的 抽象 ， 这 样 他 们 可 以 更 少 地 考虑 分 布 式 计算 细 





12.4.1 Pig 


Pig (http://hadoop.apache.org/pig 
) 是 一 个 Yahoo! 开 发 的 数据 分 析 平 台 。 这 个 平台 包含 了 一 个 名 为 Pig Latin 的 高 级 语 





开发 者 们 在 集成 Hadoop， 使 用 Cassandra 中 的 数据 运行 MapReduce 工 作 的 同时 ， 还 进 





LOAD 'cassandra://Keyspace1/Standard1' USING CassandraStorage() \ 

as (key:chararray, cols:bag([col:tuple(name:bytearray, value:bytearray))]); 
cols - FOREACH rows GENERATE flatten(cols) as (name, value); 

words = FOREACH cols GENERATE flatten(TOKENIZE((chararray) value)) as word; 
grouped = GROUP words BY word; 

counts = FOREACH grouped GENERATE group, COUNT(words) as count; 

ordered = ORDER counts BY count DESC; 

topten - LIMIT ordered 10; 

dump topten; 


这 个 字数 统计 只 有 8 行 长 。 第 一 行 读 取 了 所 有 Standard1 
列 族 的 数据 ， 描 述 了 数据 的 别名 和 数据 类 型 。 我 们 从 每 行 中 提取 了 名 / 值 对 。 在 第 三 行 
函数 。 然 后 对 每 个 词 进行 分 组 和 技术 。 最 后 ， 对 数据 按照 计数 进行 排序 ， 并 输出 找到 的 
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使 用 pig 处 理 超级 列 是 很 平常 的 操作 ， 只 是 有 一 层 肉 套数 据 而 已 ， 我 们 可 以 将 它 局 





























对 于 有 些 人 人， 编写 MapReduce 程 序 非常 乏味 而 且 充 满 了 样板 代码 。Pig 提 供 了 一 层 抽 象 ， 


Pig 集 成 代码 (一 个 LoadFunc 
的 实现 ) 位 于 Cassandra 源 码 的 contrib 部 分 。 它 可 以 按照 目录 中 提供 的 介绍 ， 编 译 

















12.4.2 Hive 


和 Pig 类 似 ，Hive (http://hadoop.apache.org/hive 
) 是 一 个 数据 分 析 平 台 。Hive 并 不 使 用 脚本 语言 ， 而 是 使 用 一 种 类 似 于 SQL 的 称 为 Hiv 

















在 本 章 写 作 时 ，Hive 的 Cassandra 存 储 处 理工 作 即 将 完成 。 对 于 Hive 与 Cassandra 的 








12.5 集群 配置 

















MapReduce 和 其 他 工具 在 尝试 事物 或 解决 问题 的 时 候 ， 可 以 非 分 布 式 地 运行 。 但 是 要 运 
找到 更 多 关于 Hadoop 配 置 的 信息 ， 或 者 阅读 Tom White 的 杰作 《Hadoop 权 威 指南 》 
) (O'Reilly) t 
































译注 1: 也 可 参考 即将 出 版 的 《Hadoop 实战 》。 


























因为 Hadoop 有 一 些 大 家 不 熟悉 的 专 有 名 词 ， 我 们 这 里 给 出 一 些 有 用 的 定义 。 














HDFS 


Hadoop 分 布 式 文件 系统 。 


namenode 





HDFS 的 主 节点 。 它 拥有 存储 于 多 个 Datanode 的 数据 块 的 位 置信 息 ， 在 小 集群 里 ， 


datanode 





为 HDFS 存 储 数据 块 的 节点 ，datanode 和 tasktracker 运 行 在 相同 的 节点 上 。 


jobtracker 


MapReduce 工 作 的 主 节点 。jobtracker 接 收 新 工作 ， 将 工作 分 为 nap 和 reduce 


tasktracker 


负责 为 jobtracker 运 行 map 或 reduce 任 务 的 进程 。tasktracker 和 datanodej 





和 Cassandra 一 样 ，Hadoop 也 是 一 个 分 布 式 系统 。MapReduce jobtracker 将 任务 
为 了 达到 数据 本 地 化 ，Cassandra 节 点 也 必须 是 Hadoop 集 群 的 一 部 分 。namenode 和 j 


图 12 -1 示意 了 一 个 四 节点 的 Cassandra 集 群 ， 每 个 Cassandra 节 点 上 都 运行 着 taskt 





图 12-1: 四 节点 的 Cassandra 和 集群 ， 外 部 有 namenode/jobtracker 


当 一 个 客户 机 发 起 任务 时 ， 它 会 到 达 jobtracker。jobtracker 在 工作 提交 时 ， 通 过 
和 ColumnFamilySplit 
来 获取 不 同 片 段 的 数据 在 集群 中 的 物理 位 置 。 之 后 ， 它 可 以 使 用 位 置信 息 将 任务 分 配 到 














最 后 ， 当 创建 工作 执行 MapReduce 的 时 候 (直接 或 是 通过 Pig) ，Hadoop 的 配置 需要 





12.6 案例 




















解 为 什么 Cassandra/Hadoop 的 集成 是 有 趣 又 有 用 的 ， 我 们 将 会 介绍 一 两 











12.6.1 Raptr.com: Keith Thornhill 








Raptr 是 一 个 允许 游戏 玩家 相互 通信 并 共享 游戏 统计 和 成 就 的 服务 。Keith Thornhil 


Keigh 认 为 Cassandra 是 一 个 很 有 前 途 的 存储 方案 ， 因 为 它 : 











内 建 的 可 扩展 性 ， 而 非 建 在 认 架 上 的 ; 











对 于 读 写 访问 呈现 单一 视图 (没有 主 从 之 分 ); 

















第 情况 下 非常 易于 维护 〈 包 括 节 点 失败 、 增 加 新 节点 等 ) , “直接 可 用 “， 只 需 





Keith 也 在 关注 Cassandra/Hadoop 的 集成 工作 的 演进 ， 并 把 Pig 看 做 是 一 个 他 可 以 使 


对 于 配置 ，Keith 使 用 了 独立 的 namenode 和 jobtracker， 并 在 每 个 Ccassandra 节 点 





12.6.2 Imagini: Dave Gardner 






































Imagini 为 发 行商 提供 工具 ， 通 过 “可 视 实验 ”和 推理 引擎 对 它们 站 点 的 访问 者 进行 分 析 














在 调研 了 很 多 替代 方案 之 后 ，Imagini 因 为 Cassandra 的 容错 性 、 无 中 心 架 构 〈 没 有 单 


Dave Gardner 是 Imagini 的 一 位 高 级 开发 者 ， 他 写 道 : “我 们 使 用 Cassandra 存 放 实 





目前 ，Imagini 从 各 种 数据 源 收集 数据 放 入 Hadoop 分 布 式 文件 系统 (HDFS) 之 中 。 使 


一 旦 Cassandra 支 持 了 Hadoop 流 ，Imagini 就 有 希望 进一步 简化 数据 流 了 。 他 们 甚至 








12.7 "^£ 





本 章 中 ， 我 们 学 习 了 Hadoop 一 Google MapReduce 算 法 的 开源 实现 。 我 们 了 解 了 Hadd 





最 后 ， 我 们 了 解 了 一 些 公司 在 集成 使 用 Hadoop 和 Cassandra 时 的 状况 。 








附录 非 天 系 型 数据 库 大 观 








cassandra 只 是 冉冉 升 起 的 众多 新 的 非 关 系 型 数据 库 项 目 中 的 一 个 ， 为 了 了 解 非 关 系 型 











近来， 我 们 时 第 听 到 “NoSQL7“ 这 个 名 词 ， 用 来 描述 一 些 不 使 用 SQL 的 数据 库 。 我 也 




















在 本 附录 中 ， 我 们 将 审视 多 种 流行 的 非 关系 型 数据 库 。Cassandra 非 常 擅长 做 某 些 事 ' 











A.1 非 关 系 型 数据 库 





守 无 疑问 ， 世 界 上 随处 可 见 那些 没有 使 用 半点 关系 模型 的 流行 数据 库 产 品 。 它 们 包括 对 多 
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这 里 有 很 多 非 关系 型 数据 库 没 有 提 到 ， 主 要 是 因为 它们 或 者 少 有 人 问津 ， 或 者 是 专用 
。 想 要 了 解 更 完整 的 非 关系 型 数据 库 ， 可 以 访问 Alex Popescu 的 非常 棒 的 网 站 M 











你 读 这 本 书 可 能 是 因为 已 经 为 自己 的 项 目 选 择 了 Cassandra。 当 然 ， 你 也 可 能 只 是 听 说 











所 以 来 看 看 这 些 蔡 代 产品 ， 看 看 它们 和 我 们 已 经 熟悉 的 数据 库 产 品 有 何 异 同 。 我 会 尽力 外 





总 的 来 说 ， 这 些 数 据 库 都 是 分 布 式 的 ， 这 意味 着 它们 的 设计 允许 用 多 个 节点 容纳 数据 的 昌 


不 过 ， 从 男 一 个 角度 来 看 ， 这 些 数 据 库 都 还 缺少 优秀 的 工具 和 框架 的 支持 。 很 多 解决 方 胃 














A.2 对 象 数 据 库 














对 象 数 据 库 的 设计 初衷 是 避免 对 象 -关系 模型 之 间 的 “阻抗 不 匹配 “问题 ， 在 面向 对 象 语 








因为 在 对 象 数据 库 里 ， 你 不 需要 再 进行 应 用 中 的 对 象 到 关系 型 模型 的 数据 转换 ， 所 以 应 月 








对 象 数据 库 从 29 世 纪 79 年 代 中 期 到 89 年 代 就 出 现 了 ， 但 从 未 获得 广泛 的 商业 应 用 ， 只 在 


InterSystems 的 对 象 数据 库 Cache 可 能 是 最 为 人 所 知 的 对 象 数据 库 商 业 产 品 了 ， 此 外 ， 


面向 对 象 数据 库 有 一 些 致命 缺点 。 虽 然 使 用 面 问 对 象 数据 库 可 以 带 来 很 多 性 能 上 的 改善 ， 








近年 来 ， 相 比 于 这 里 提 到 的 其 他 存储 系统 ， 对 象 数 据 库 较 少 受到 关注 ， 也 鲜 有 发 展 ， 所 L 








A.3 XML 数据 库 








XML 数据 库 是 文档 数据 库 的 一 种 特殊 形式 ， 专 门 为 与 XML 一 起 应 用 而 优化 。XML 的 第 一 个 





除了 刚才 已 经 提 到 的 用 法 ，XML 数 据 库 还 是 所 谓 “XRX 网 络 应 用 架构 “的 中 心 ， 这 个 概 : 





在 客户 端 ，XRX 使 用 XForms， 这 是 W3C 建 议 的 HTML 表 单 的 XML 格式 替代 品 ，XForms 





在 中 间 层 ，XRX 使 用 RESTful 服 务 ， 甚 至 有 时 直接 暴露 数据 库 的 RESTful 接 口 ， 在 后 





XML 数据 库 己 经 被 部 分 证 明 非 常 有 用 ， 因 为 它们 允许 开发 者 对 于 茶 些 的 XML 文档 直接 使 用 

















XML 数据 库 有 一 类 核心 功能 : 允许 你 存储 和 查询 XML 文档 。 虽 然 它 们 通常 都 不 直接 使 用 ” 











使 用 XML 友好 的 查询 机 制 ， 如 XPath 和 XQuery。XPath 是 在 文档 中 对 不 同 数据 项 








直接 在 应 用 中 使 用 XML 的 时 候 可 以 获得 性 能 提升 。 茶 些 使 用 XML 的 应 用 不 得 不 将 文 相 


可 以 灵活 地 访问 数据 。XML 数 据 库 让 你 常常 可 以 用 DOM、JDOM、SAX API 和 SOAPt 














快速 的 全 文 搜索 。 








关系 型 数据 库 里 所 熟悉 的 功能 ， 如 跨 文档 集合 的 join、 用 户 定义 函数 、 元 数据 和 交 





灵活 使 用 XML 协 议 栈 ， 如 在 展现 层 使 用 XForms 。 











其 他 特性 ， 比 如 存储 非 XML 文 档 [ 如 纯 文 本 《〈 非 结构 化 ) 文档 ] 。 








如 果 你 还 不 熟悉 XPath 这 种 在 XML 文档 里 查找 数据 的 方法 ， 看 看 下 面 这 个 XML 示例 文档 : 


&ltcatalog» 
&ltplays» 
&ltplay name-'Hamlet'»&ltprice»5.95&lt/price»&lt/play» 
&ltplay name-'King Lear'»&ltprice»6.95&lt/price»&lt/play» 


&lt/plays» 
&lt/catalog» 








对 于 上 面 这 个 XML 文档 ， 下 面 的 XPath 表达 式 的 返回 值 应 该 是 6.95， 这 个 结果 是 通过 得 
元 素 里 的 price 
元 素 得 到 的 : 


//catalog/plays/play/[Qname-'King Lear']/price 





























有 多 个 XML 数据 库 的 开源 项 目 和 商业 产品 可 供 选择 。 通 第 它们 会 使 用 两 种 存储 机 制 之 一 : 











下 面 几 市 会 简单 浏览 一 些 流行 的 XML 数 据 库 。 


A.3.1 SoftwareAG Tamino 








Tamino 是 最 早 的 XML 原 生 数 据 库 之 一 。 它 是 一 个 成 熟 的 商业 产品 ， 广 泛 文 持 你 所 期 望 的 


A.3.2 eXist 





eXist XML 数 据 库 最 初 是 Wolfgang Meier 于 2000 年 创建 的 个 人 项 目 ， 并 一 直 持 续 积 


A.3.3 Oracle Berkeley XML DB 


Berkeley XML DB 是 一 个 用 Java 编 号 的 开源 数据 库 ， 最 初 是 一 个 哈佛 的 研究 项 目 ， 目 




















A.3.4 MarkLogic Server 











MarkLogic 是 由 支持 XQuery 创 建 、 读 取 、 更 新 、 删 除 CCRUDO 操作 ， 全 文 搜 索 ，XML 











A.3.5 Apache Xindice 


Apache Xindice 项 目 也 是 早期 XML 数据 库 之 一 ， 开 始 于 2001 年 。 按 照 设 计 ， 它 仅 用 于 


A.3.6 小 结 


实际 上 还 有 很 多 其 他 的 XML 数据 库 ， 包 括 TigerLogic、MonetDB、Sedna 等 。 不 过 ， 














当然 ， 如 果 你 只 是 存储 小 型 XML 文档 ， 而 且 应 用 不 需要 文档 集合 ， 那 么 可 能 使 用 XML 数据 





A.4 面 问 文档 的 数据 库 








在 关系 型 数据 库 中 ， 数 据 存放 在 表 中 ， 也 有 可 能 ， 数 据 会 被 反复 “拆散 ”“， 以 便 使 用 关系 








而 面向 文档 的 数据 库 一 般 会 有 这 样 几 个 优点 。 











文档 数据 库 的 基本 存储 单位 就 是 一 整 篇 文档 。 一 篇 文档 可 以 存储 任意 数量 的 不 限 长 











在 一 个 面向 文档 的 数据 库 中 ， 不 需要 像 RDBMS 中 那样 ， 在 没有 值 可 存 的 时 候 存储 “2 











它们 都 不 需要 schema， 形 式 上 非常 随意 。 





可 以 对 每 个 文档 单独 设 定安 全 级 别 。 























它们 通常 都 支持 全 文 检索 。 少 数 RDBMS 也 能 提供 这 个 功能 ， 但 在 面向 文档 的 数据 库 





， 到 底 什么 是 “文档 ”" 呢 ?可 以 是 文本 ， 存 储 为 JSON 格 式 ( 参 考 “ 何 谓 JSON”) ; tàn 





何谓 JSON 





JSON 是 JavaScript Object Notation (JavaScript 对 象 标 记 ) 的 缩写 ， 是 一 


{ 


"contact": ( 
"fname": "Alison", 
"lname": "Brown", 
"address": ("street": "301 Park Ave", "city": "New York", "state": "NY", "zip 
n" " 
phone": [ 
( "type": "mobile", "number": "480-555-5555" }, 
( "type": "home", "number": "212-444-4444" } 





同样 的 信息 ， 用 XML 表述 应 该 是 这 个 样子 的 : 











&ltcontact» 
&ltfname2»Alison&lt/fname»&ltlname»Brown&lt/lname» 
&ltaddress» 
&ltstreet»301 Park Ave&lt/street»&ltcity»-New York&lt/city» 
&ltstate2»NY&lt/state»&ltzip»10022&lt/zip» 


&lt/address» 

&ltphone type-"mobile"»2480-555-5555&1t/phone» 

&ltphone type-z"home"2212-444-4444&1lt/phone» 
&lt/contact» 














JSON 只 支持 少量 数据 类 型 ， 没 有 XML 提供 的 那么 丰富 。JSON 文 持 的 数据 类 型 包括 数 























在 上 面 这 个 JSON 文 档 中 ， 你 可 以 看 到 一 个 带 有 几 个 属性 的 联系 人 对 象 。 名 和 姓 以 字 各 


o 


JSONXZ31E19994E 3L EMS, (HELSIBIEJLAE, SFREE CARE Y BETPIXML EL 











相对 于 XML 文档 ，JSON 文 档 更 加 轻 量 级 ， 虽 然 XML 在 很 多 平台 上 都 有 广泛 的 工具 文 持 ， 

















在 直接 表示 数据 的 时 候 ， 或 是 在 文档 数据 库 和 分 布 式 哈 希 表 的 例子 中 ， 都 经 常 使 用 JS 





你 可 以 把 面向 文档 的 数据 库 当 做 是 一 些 键 - 值 集合 ， 把 它们 看 做 是 稍 后 在 A, 6 节 讨 论 的 





"title": "I Heart LolCatz", 
"author: "Inigo Montoya", 
"ts": Date("31-Dec-99 11:59"), 
"comments": [{ 

"author": "Robert Zimmerman", 


"comment: "I'm just a song and dance man"}, ( 
"author": "Rogers Nelson", 


"comment: "I'm just a song and dance man") 





看 起 来 似乎 很 简单 ， 而 考虑 一 下 如 何 用 关系 数据 库 里 的 表 来 表达 一 个 如 此 简单 的 数据 结 术 





A.4.1 IBM Lotus 


Lotus 最 早 的 版 本 发 布 于 1989 年 ， 可 能 是 所 有 面向 文档 的 数据 库 的 灵感 来 源 ， 包 括 Cou 





网 站 : 
http://www.ibm.com/software/lotus 








Lotus 的 首 个 版 本 发 布 于 1989 年 。 截 止 到 本 书写 作 时 的 最 新 版 本 是 2010 年 3 月 友 


schema: 
不 需要 schema。 文 档 ("notes") 存储 在 称 为 Notes 存 储 文件 (NSF) 的 自 有 术 








客户 端 : 
最 新 版 本 的 最 终 用 户 客户 端 是 基于 Eclipse 的 。 要 与 Domino 数 据 库 交互 ， 可 以 1 














CAP: 
Lotus 可 以 集群 化 并 进行 副本 复制 。 

















产品 应 用 : 
Lotus 在 很 多 企业 中 都 作为 员工 协作 工具 使 用 。 


A.4.2 Apache CouchDB 


作为 一 种 数据 库 ，CouchDB 可 能 是 和 Lotus Notes 最 为 相似 的 了 。 这 并 不 奇怪 ， 它 的 包 





CouchDB 最 有 趣 的 特性 之 一 是 多 版 本 并 发 控制 (MVCC) 。MVCC 意 味 着 读 操 作 将 不 会 阻 
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如 果 你 希望 更 多 地 了 解 CouchDB， 可 以 参阅 0'Reilly 的 《CouchDB 权 威 指南 》 C 
) ， 由 J. Chris Anderson. Jan Lehnardt 和 Noah Slater 合 著 。 














网 站 : 
http://couchdb.apache.org 





面向 : 
文档 





创建 : 
开始 于 2005 年 ，2008 年 成 为 Apache 鳞 化 器 项 目 。 


实现 语言 : 
Erlang 


分 布 式 : 
是 ， 离 线 时 数据 也 可 以 被 用 户 和 服务 器 读 取 或 更 新 ， 在 之 后 ， 所 有 的 变更 都 可 以 ; 





Schema: 





不 需要 schema。 文 档 可 以 全 部 以 JSON 格 式 存 储 。 每 个 文档 有 唯一 的 ID。 


客户 端 : 





RESTful 的 JSON API 人 允许 任何 可 以 发 起 HTTP 请 求 的 语言 访问 。 








最 终 一 致 性 。 且 有 副本 复制 机 制 ， 用 于 同步 不 同 节 点 上 的 多 份 数据 加 























产品 应 用 : 


CouchDB 在 本 书写 作 时 仍然 没有 完成 1， 





中 的 产品 应 用 列表 。 





附加 特性 : 


























dy 


JT. REA 














0 发 布 ， 但 在 多 个 社交 网 站 和 软件 应 用 中 








支持 MapReduce、 增 量 副 本 复制 和 容错 性 。 带 有 Web 控 制 台 。 

















A.4.3 MongoDB 




















MongoDB 可 能 和 CouchDB 最 为 相似 。 它 则 在 融 





合 键 值 存储 、 文 档 数据 库 、 对 象 数据 库 和 


Aa 


aa 
wW 





如 果 你 希望 更 多 地 了 解 MongoDB， 可 以 参阅 0'Reilly 的 《MongoDB 权 威 指南 》 C 
) 1 
>, HiKristina Chodorow 和 Michael Dirolf4& x. 
































注 1: 本 书 已 由 人 民 邮 电 出 版 社 出 版 。 









































网 站 : 
http://www.mongodb .org 








创建 : 
由 Geir Magnusson 和 Dwight Merriman 在 10gen 开 发 。 














N 


实现 语言 : 
C++ 


分 布 式 : 


schema: 


存储 JSON 风 格 的 文档 ， 可 以 使 用 动态 schema。 


CAP: 
MongoDB 对 所 有 分 片 都 使 用 单 主 节点 的 方式 ， 可 以 达到 完全 一 致 性 。 





产品 应 用 : 
MongoDB 的 用 户 包 括 SourceForge、Bit.ly、Foursquare、GitHub、Shut 





附加 特性 : 
支持 MapReduce。 有 一 个 很 简洁 的 Web 界 面 ， 可 以 让 你 在 浏览 器 里 使 用 JavaScr 





A.4.4 Riak 











Riak 是 一 个 基于 Amazon Dynamo 的 混合 型 数据 库 ， 既 是 面向 文档 的 ， 也 是 分 布 式 键 一 人 











Riak 的 设计 中 有 三 个 基本 元 





桶 (bucket) 、 键 、 值 。 数 据 组 织 在 桶 中 ， 桶 大 致 相 : 


3 
































Riak 的 实现 者 Basho Technologies， 同 时 提供 了 商业 版 本 和 开源 版 本 。 





Riak 可 以 在 大 部 分 Unix 类 操作 系统 上 运行 ， 但 不 支持 Windows。 


网 站 : 
http://wiki.basho.com 


面向 : 
文档 与 键 值 存储 








创建 者 : 
麻 省 剑桥 的 Basho Technologies. 3X4] 





HAkamai 的 架构 师 于 2008 年 创 





ED 











实现 语言 : 
主要 是 Erlang， 部 分 使 用 C 和 JavaScript 





Hl 


上 本 复制 : 


























可 以 在 桶 级 设置 副本 复制 机 制 。 


Cs 























schema: 


Riak 是 无 Schema 的 ， 不 使 用 特定 的 数据 类 型 。 和 键 对 应 的 值 是 对 象 。 所 有 的 数 # 

















Je Pn: 
Riak 提 供 了 三 种 主要 的 交互 方式 JSON/HTTP 的 API; Erlang, Python. Ja 
访问 。 

















CAP: 
Riak 和 Cassandra 非 常 类 似 ， 这 个 数据 库 也 允许 用 户 来 调整 一 致 性 、 可 用 性 和 


产品 应 用 : 
Riak 的 客户 包括 Comcast 和 Mochi Media. 





附加 特性 : 
Riak 可 以 和 MapReduce/Hadoop 和 集成。Riak 的 商业 版 本 称 为 Enterprise DS 





A.5 图 数据 库 


图 数据 库 是 关系 数据 模型 的 又 一 种 蔡 代 模型 。 你 可 以 把 图 想 成 一 个 网 络 。 图 数据 库 的 数 


图 A-1 示 意 了 一 个 有 五 个 节点 和 五 条 边 的 图 数据 库 。 边 可 以 描述 多 种 关系 ， 但 在 这 个 侦 
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图 A-1: 图 建 模 关 系 


图 数据 库 和 其 他 的 非 关 系 型 数据 库 的 不 同 在 于 ， 比 如 键 - 值 存储 ， 在 图 数据 库 中 ， 不 仅仅 














在 过 去 15 年 中 ， 有 两 个 关键 趋势 决定 了 图 数据 库 作为 一 种 重要 的 数据 存储 形式 的 崛起 。 


以 图 A-2 所 示 的 简单 的 时 间 线 为 例 。 从 29 世 纪 90 年 代 初 开始 ， 文 本 文档 和 相互 链接 的 简 
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图 A-2: 管理 大 规模 数据 的 需求 正在 增加 ， 而 且 还 将 继续 




























当 互 联网 开始 构建 重要 的 语义 层 时 ， 伴 随 而 来 的 就 是 数据 量 的 爆炸 ， 这 时 ， 最 大 的 互联 F 








与 许多 面向 文档 的 数据 库 类 似 ， 图 数据 库 一 般 不 要 求 schema 的 形式 ， 它 允许 应 用 随 着 数 
相对 于 RDBMS， 图 数据 库 最 本 质 的 优点 是 没有 所 谓 阻抗 不 匹配 的 问题 ， 你 可 以 把 对 象 按 只 


如 果 你 对 社会 化 网 络 和 语义 网 络 应 用 中 的 图 数据 库 感 兴趣 ， 还 可 以 研究 更 多 在 此 未 一 一 总 
中 的 Gremlin 项 目 。Gremlin 是 一 个 为 进行 查询 、 图 分 析 和 处 理 图 数据 库 设 计 的 开源 不 





这 里 只 介绍 两 种 图 数据 库 ， 但 是 ， 如 果 你 是 一 个 Hadoop 使 用 者 ， 还 可 以 看 看 Hama 项 目 ， 
。Go0gle 还 有 一 个 称 为 Pregel 的 项 目 ， 他 们 内 部 使 用 这 个 项 目 很 多 年 了 ， 并 且 可 能 


A.5.1 FlockDB 


2010 年 4 月 ，Twitter 宣 布 他 们 在 6itHub 上 开源 了 新 的 图 数据 库 ， 称 为 FlockDB。 他 个 





网 站 : 
http://github.com/twitter/flockdb 








创建 : 
2010 年 由 Twitter 创建 

















PE EN 


实现 语言 : 
Scala 


授权 方式 : 
Apache 许 可 证 (第 2 版 ) 





分 布 化 : 
是 


schema: 


FlockDB 的 schema 非 常 简单 直接 ， 因 为 FlockDB 并 不 想 解决 所 有 的 数据 库 问 题 ， 














客户 端 : 
FlockDB 使 用 Thrift 0.2 客 户 端 ，Twitter 还 写 了 一 个 Ruby 的 前 端 ， 提 供 了 




















Ce 


副本 复制 机 制 |: 
有 























底层 存储 : 
MySQL 


产品 应 用 : 
Twitter 


附加 特性 ; 
FlockDB 人 允许 快速 对 包含 上 百 万 个 条 目的 查找 结果 集 进行 分 页 ， 支 持 对 边 进行 归 








A.5.2 Neo4J 








Neo4J 是 一 个 兼容 ACID 属 性 的 图 数据 库 ， 特 别 为 快速 的 图 所 历 而 优化 。 它 支持 事务 ， 文 


pm 











Neo4J f DLMEZJJARPLEN SUNL FH Zr, RRA ELE ELDIPISTINeo4J. JRHRIEAART 


网 站 : 
http://neo4j.org 








创建 : 
由 Neo Technologies 于 2003 年 创建 ， 并 开始 产品 应 用 。 版 本 1.0 发 布 于 2019 








实现 语言 : 
Java 





许可 证 : 
开源 许可 证 为 AGPLv3， 使 用 商业 许可 证 可 以 获得 更 多 的 特性 。 

















分 布 化 : 
Neo4J 是 半分 布 化 的 ， 可 以 使 用 RMI 进 行 远程 通信 。 注 意 : 免费 版 本 的 Ne04J 是 








schema: 
Neo4J 是 一 个 由 无 sSchema 的 节点 、 边 和 可 选 属性 构成 的 图 。 




















客户 端 : 
有 多 种 选择 : Neo4J 可 以 作为 一 个 REST 服 务 器 来 启动 ， 这 样 就 可 以 使 用 简单 的 H 











副本 复制 机 制 : 
截止 到 本 书写 作 的 时 候 ，Neo4J 的 副本 复制 功能 仍然 在 开发 中 。 它 的 主 从 副本 复 1 





















































存储 : 
2s P REGE M 


产品 应 用 : 
box.net、 ThoughtWorks 





附加 特性 : 
因为 Neo4J 是 图 数据 库 ， 所 以 可 以 很 好 地 应 用 在 语义 网 络 应 用 之 中 。 人 允许 执行 SP 





Neo4J 可 以 和 Apache Lucene/SolLr 集 成 ， 以 存储 外 部 索引 来 进行 更 快 的 全 局 检索 。 3 





Neo4J 的 版 本 1.1 将 会 带 有 一 个 事件 框架 。 








A.6 键 - 值 存 储 与 分 布 式 哈 希 表 





在 关系 模型 中 ， 我 们 首先 考虑 的 是 ， 域 要 求 使 用 什么 样 的 表 ， 然 后 考虑 如 何 将 表 范 式 化 ， 














但 是 ， 在 键 - 值 存储 中 ， 通 党 不 需要 预先 定义 这 样 的 Schema。 域 在 这 里 成 为 了 桶 ， 你 可 


























男 一 个 对 比 关 于 建 模 。 使 用 关系 型 数据 库 工作 时 ， 我 们 倾向 于 仔细 考虑 schema， 确 信 我 








数据 完整 性 是 男 一 个 差异 点 。 数 据 完整 性 是 指 应 用 中 数据 的 完全 和 一 致 性 的 程度 。 关 系 


考虑 一 个 例子 : 你 在 数据 库 中 存储 了 客户 和 订单 信息 。 在 关系 型 数据 库 中 ， 必 须 在 数据 








对 键 - 值 存储 的 一 个 苛 责 在 于 ， 当 需要 扩展 到 数 十 亿 条 记录 的 时 候 就 会 非常 困难 ， 但 这 种 

















仿 有 很 多 种 可 供 选择 的 键 值 存储 ， 包 括 Tokyo Cabinet. WW 3xM'simpleDBEL A f 








A.6.1 亚马逊 的 Dynamo 








Dynamo 是 亚马逊 内 部 使 用 的 键 值 存储 系统 。 昌 然 开 发 者 们 无 法 使 用 这 个 系统 ， 但 它 仍然 





2007 年 10 月 ， 亚 马 进 的 CTO Werner Vogels 在 ACM 发 表 了 一 篇 名 为 “Dynamo: Amaz 
。 这 篇 论文 技术 性 很 强 ， 但 非常 清晰 、 简 洁 ， 并 且 写 得 很 精彩 。 我 将 在 这 里 简单 总 结 它 























Dynamo 和 很 多 本 附录 中 描述 的 系统 一 样 ， 诞 生 于 现实 生产 环境 中 的 需求 ， 包 括 持续 增 涨 




















Dynamo 用 于 亚马逊 的 购物 车 ， 当 然 ， 一 致 性 对 于 亚马逊 是 非常 重要 的 。 但 对 于 基于 Web 











和 Cassandra 一 样 ，Dynamo 的 一 致 性 是 一 个 可 配置 的 属性 ， 它 允许 用 户 来 确定 一 个 副 














Dynamo 架 构 的 需求 非常 清晰 。 为 了 文 持 高 可 用 的 模型 ， 团 队 决 定 调 低 一 致 性 “ 旋 扭 ”。 

















要 达到 一 个 可 以 接受 的 一 致 性 级 另 


ie. 


|，Dynamo 必 须 实现 菜 种 版 本 机 制 ， 以 让 副本 知道 ， 哪 




















本 节 总 结 了 Amazon Dynamo 论 文 的 主要 内 容 ， 帮 你 理解 其 架构 目标 和 特性 。 虽 然 我 非 % 











A.6.2 Voldemort 项 目 


Voldemort 开 始 是 一 个 LinkedIn 的 内 部 项 目 ， 用 于 解决 他 们 所 面 对 的 简单 数据 在 可 扩 





LinkedIn 的 Jay Kreps 提 到 的 性 能 数据 大 约 是 一 个 客户 端 、 一 个 服务 器 的 环境 下 ， 


网 站 : 
http://project-voldemort.com 


面向 : 
键 - 值 存储 








创建 : 
2008 年 ， 由 LinkedIn 的 数据 与 分 析 团 队 为 解决 应 用 的 实时 性 问题 而 创建 。 











实现 语言 : 
Java 


分 布 式 : 


schema: 














Voldemort 的 主要 设计 目标 是 高 性 能 与 高 可 用 性 。 所 以 ， 这 个 数据 库 仅 支持 最 简 
, Store.put(key, value) 


fRistore.delete(key) 
。 因 为 VolLldemort 人 允许 用 JSON 指 定 schema， 所 以 它 支持 JSON 支 持 的 数据 类 型 。 


客户 端 ; 





和 Cassandra 类 似 ，Voldemort 人 允许 可 插 拔 的 接口 方式 。 按 照 Voldemort 的 网 i 








副本 复制 机 制 : 
数据 自动 地 在 多 台 服 务 器 




















底层 存储 : 
Voldemort 人 允许 使 用 可 捐 




















间 进 行 副本 复制 ， 这 是 可 配置 的 。 


c— 











上 拔 的 磁盘 存储 机 制 ， 可 以 使 用 BerkeleyDB 或 是 MySQL 





产品 应 用 : 
LInkedIn 


附加 特性 : 
可 以 与 Hadoop 一 起 使 用 。 


A.6.3 Redis 











Redis 不 是 一 个 “普通 的 ” 键 - 值 存储 ， 因 为 它 还 支持 多 种 不 同 数据 结构 的 值 ， 比 如 二 进 各 








2010 年 3 月 ，VMWare 接 手 ， 成 为 Redis 项 目的 赞助 者 。 





网 站 : 
http://code.google.com/p/redis 





面向 : 
键 - 值 存储 








创建 : 
创建 于 2009 年 





H 


Y 


实现 语言 : 
ANSI C 


分 布 化 : 
没有 分 布 化 和 容错 性 。 





schema: 


键 - 值 存储 ， 使 用 server :key-name 
来 存储 与 取出 数据 。 





Je Pn: 
Redisx FPE BUE 9m. A EARE, Ruby, Python. Twisted P 








CAP: 
最 终 一 致 性 


是 否 开源 : 
是 。 托 管 在 Google Code 项 目 中 。 这 里 有 一 个 很 整洁 的 页 面 ( 基 于 MongoDB 的 才 
尝试 一 下 吧 。 

















A.7 列 数据 库 





在 列 数据 库 中 ， 数 据 围绕 列 而 非 行 来 组 织 。 这 样 ， 可 以 对 某 些 应 用 的 负载 更 加 优化 ， 特 刀 


为 了 优化 磁盘 空间 和 IO 消 耗 的 时 间 ， 在 列 数 据 库 里 ， 数 据 存储 的 工作 方式 有 些许 不 同 。 








列 数据 库 经 常 要 求 数据 的 类 型 是 一 致 的 ， 这 样 可 以 更 好 地 进行 数据 压缩 。 





列 数据 库 最 早 大 约 出 现在 20 世 纪 79 年 代 早 期 。Sybase IQ 就 是 最 早 的 列 数据 库 之 一 ，;# 








不 过 ， 近 几 年 的 项 目 〈 主 要 是 开源 项 目 ) 才 是 我 们 讨论 的 NoSQL 的 一 部 分 ， 这 些 数据 库 济 





Google 的 Bigtab1e 是 现代 列 数据 库 的 具 祖 。 它 是 一 个 内 部 自用 的 系统 ， 但 是 Google 


A.7.1 Google Bigtable 


在 G00gle 内 部 ，Bigtable 用 于 用 户 数 据 库 ， 它 的 设计 可 以 扩展 到 PB 级 别 。Google 














里 解 Bigtable 非 常 有 意义 ， 至 少 在 某 种 程度 上 ， 因 为 它 的 很 多 特性 和 设计 决策 都 是 Cas 








Aa 


as, 
ug. 
us 


我 强烈 建议 你 阅读 Google BigtableHjiex. LER EARAIL. ANI. m 
找到 Bigtable 的 论文 。 

















Cassandra 在 很 多 地 方 和 Bigtable 有 差别 ， 但 是 ， 两 者 重要 的 差别 在 于 Cassandra 使 








Bigtable 依 赖 于 一 个 称 为 Chubby 的 分 布 式 锁 服 务 ， 它 用 Chubby 做 几 件 事情 : 保证 任 1 








网 站 
无 ， 但 可 以 在 http://tables,googlelabs.com 
查看 一 个 相关 的 项 目 ， 称 为 Google Fusion Tables. 











创建 : 
Google 从 2004 年 开始 Bigtab1le 的 开发 ， 论 文 发 表 于 2006 年 。 


实现 语言 
C++ 


分 布 化 : 
是 


底层 存储 : 
Google 文 件 系统 (GFS) 。 文 件 分 割 为 64 MB 的 分 块 ， 通 常 只 以 追加 的 方式 写 文 





Schema: 


Bigtab1le 的 数据 模型 是 一 个 稀 琉 、 分 布 化 、 多 维 的 有 序 映射 。 多 许 用 户 存储 比 








客户 端 : 
C++， 查 询 有 时 也 可 以 使 用 一 个 Google 内 部 开发 的 脚本 语言 Sawzal1。 最 初 Saw 





Ii IM 


附加 特性 : 
虽然 你 无 法 直接 使 用 Bigtable， 但 可 以 通过 在 G600gle App Engine 创 建 应 用 3 











A.7.2 HBase 


HBase 是 Google Bigtable 的 一 个 克隆 ， 最 早 是 和 Hadoop 一 起 使 用 的 (实际 上 ， 起 初 


网 站 : 
http://hbase.apache.org 


创建 者 : 
Powerset 在 2007 年 创建 了 HBase， 其 后 捐 给 了 Apache。 








Y 


实现 语言 : 
Java 


分 布 化 : 
是 。 可 以 单独 运行 HBase， 或 伪 分 布 化 ， 或 是 使 用 完全 分 布 化 模式 。 伪 分 布 化 模 





底层 存储 : 
HBase 构 建 在 Hadoop 分 布 式 文件 系统 之 上 ， 类 似 于 Bigtable。 





schema: 
HBase 支 持 非 结构 化 和 部 分 结构 化 数据 。 要 支持 这 些 数据 结构 ，HBase 用 列 族 G 














客户 端 : 
可 以 使 用 Thrift、 RESTfu1 网 关 、Protobuf (参见 下 面 的 附加 特性 ) 或 一 个 五 





NS 





是 (Ap ache 许 可 证 


产品 应 用 : 
Adobe 从 2008 年 开始 使 用 HBase。Hbase 的 用 户 还 包括 : Twitter. Maholo. 





附加 特性 : 
因为 HBase 是 Hadoop 项 目的 一 部 分 ， 它 和 Hadoop 的 结合 非常 密切 。 因 为 有 一 整 




















HBase 的 运行 需要 依赖 于 Zookeeper。Zookeeper 也 是 Hadoop 项 目的 一 部 分 ， 是 一 个 


人 (Protocol Buffer) API 代 蔡 XML 来 访问 HBase。 
































HBase 提 供 了 一 个 基于 Web 的 控制 台 用 户 界面 ， 可 以 用 于 监控 管理 区 域 服务 器 (region 




















A.7.3 Hypertable 





Hypertab1le 也 是 一 个 Google Bigtable 的 克隆 ， 和 HBase 非 常 相似 。 项 目的 发 起 公 


与 Cassandra 和 其 他 Bigtable 的 往生 项 目 类 似 ，Hypertable 使 用 Bloom filter 和 

















Hypertable 非 常 适 于 分 析 型 应 用 和 人 处理。 和 其 他 非 关系 型 解决 方案 不 同 ，Hypertabl 


网 站 : 











http://www.hypertable.org 


创建 者 : 





Hypertable 项 目 


€ 


实现 语言 : 


C 








HZvents 于 2007 年 2 月 启动 。 











开源 : 


in 


schema: 


Hypertable 的 数据 存储 在 一 个 多 维 表 中 ， 可 以 看 做 是 一 个 统一 有 序 的 键 - 值 对 允 











客户 端 : 
主要 通过 C++ Thrift API 交 互 (Cassandra 也 是 用 Thrift， 并 正在 转向 Avr 








附加 特性 : 

Hypertable 有 自己 的 查询 语言 ， 称 为 Hypertable 查 询 语言 (HQL) 。HQL 基 
。 这 个 查询 看 起 来 和 SQL 非 常 类 似 ， 但 格式 略 有 不 同 。 比 如 “人 = 
“操作 符 的 意思 是 “以 .开头 ”。 


























与 Voldemort 和 Cassandra〔( 至 少 是 换 用 Avro 之 前 ) 类 似 ，Hypertable 的 客户 端 序 





A.8 多 持久 化 存储 系统 








本 附录 里 ， 我 们 已 经 接触 到 了 很 多 风格 的 持久 化 存储 ， 有 一 个 突出 的 情况 是 : 每 个 都 适 月 
的 Dean Wampler 举 了 Emacs 的 压倒 性 成 功 作为 例子 ， 说 明 多 语言 编程 的 好 处 : Emacs 





我 认为 ， 在 持久 化 存储 方面 我 们 可 能 面临 类 似 的 趋势 。NoSQL 的 崛起 开始 对 传统 发 起 挑 上 
的 解决 方案 ， 或 者 说 ， 在 一 个 应 用 里 ， 使 用 不 同 的 数据 存储 系统 来 完成 不 同 的 任务 。 在 











A.9 小结 


在 前 面 的 章节 中 ， 我 们 快速 浏览 了 多 种 非 关 系 型 数据 库 ， 和 希望 给 出 恰当 的 背景 来 了 解 Cas 











为 了 了 解 关系 型 数据 库 的 丛 代 产品 ， 我 们 还 了 解 了 很 多 近年 来 涌现 的 所 请 NoSQL 系 统 。 六 


所 以 ， 本 书 之 中 ， 我 的 目的 不 是 说 服 你 抛弃 所 有 的 关系 型 数据 库 ， 并 立刻 用 新 方式 来 取 人 











全 以 置信 ， 我 们 真是 一 大 群 白 阁 。 我 们 在 字典 里 找 “ 洗 钱 ”。 














—Peter, 电影 《上 班 一 条 虫 》 








词汇 表 里 给 出 了 一 些 使 用 Cassandra 时 非常 有 必要 了 解 的 概念 定义 。 在 http://wiki. 
确实 有 不 少 有 用 的 材料 ， 不 过 第 一 次 看 它们 也 确实 很 尝 ， 因 为 每 个 新 名 词 都 需要 更 多 的 






































1， 逆 (Anti-Entropy) 


























为 词汇 表 是 字母 排序 的 ， 为 便于 查找 ， 这 里 所 有 词汇 都 保留 英文 原 词 了 。 


























3 8 XR Z3 B8] As [8] 2 
， 是 Cassandra 为 保证 不 同 节 点 上 的 数据 副本 都 可 以 更 新 到 最 新 版 本 而 采用 的 机 制 。 








这 里 解释 一 下 逆 焙 的 工作 方式 。 在 主 压 紧 〈 参 见 压 紧 
) 过 程 中 ， 服 务 器 发 起 TreeRequest/TreeResponse 会 话 ， 来 和 相 邻 节点 交换 Merk 
类 负责 的 。AntiEntropyService 


: 并 定义 了 Differencer 
静态 类 。 类 用 于 比较 两 棵 树 ， 如 果 发 现任 何 差 异 ， 都 会 对 有 差异 的 区 间 发 起 修复 过 























XE 3 f Dynamorp fii F] TARLA Cassandra: Hl T Dynamo] S9 〈 参 考 Dynamoi 


frtDynamoz.rB, EIEH f Merkle KLEEN] C V Merkledj] 
) 。Cassandra 也 是 如 此 ， 但 两 者 实现 略 有 不 同 ， 在 Cassandra 之 中 ， 每 个 列 族 有 它 











对 于 如 何 修复 数据 ， 可 以 参见 读 时 修复 


Am 


2. 异步 


Hb (asynchronous write) 在 文档 和 邮件 列表 里 有 时 简写 为 Async Write. Ca 
和 Future<T> 


这 类 java .util.concu- rrent 
库 的 组 件 来 把 数据 写 问 缓冲 区 。 





3. Avro 


Avro CHRE) 正在 取代 Thrift 成 为 与 cassandra 进 行 交 互 的 RPC 客 户 端 。Avro 是 Apa 
， 由 Hadoop 和 Lucene 的 创立 者 Doug Cutting 创 建 。Avro 的 功能 类 似 于 Thrift, 1 


























译注 2 : Avro 已 经 从 Hadoop“ 毕 业 ”， 成 为 顶级 的 Apache 项 目 了 。 




















这 个 迁移 意 味 着 Cassandra 服 务 器 将 从 org.apache.cassandra.thrift.Ca 


迁移 到 org.apache.cassandra.avro.CassandraServer 
。 在 本 书写 作 的 时 候 ， 这 个 迁移 尚 在 进行 中 ， 还 没有 完成 。 








WE 0 官方 主页 了 解 更 多 的 信息 : http://avro.apache.org 





4. Bigtable 





Bigtable 是 Google 于 2006 年 开发 的 面向 列 的 高 性 能 分 布 式 数 据 库 系 统 ， 构 建 在 Goog 


Yahoo! 的 HBase 是 Bigtable 的 一 个 克隆 。 


可 以 从 这 里 http://labs.google.com/papers/bigtable.html 
读 到 Bigtable 的 完整 论文 。 


5. Bloom filter 











简单 地 说 ，Bloom filter 是 一 个 非常 快 的 用 于 判断 一 个 元 素 是 否 属于 一 个 集合 的 非 确 








cassandra 在 键 值 查 询 时 使 用 Bloom filter， 以 此 减少 代价 高 昂 的 磁盘 访问 。 每 个 S 























虽然 可 能 出 现 假 了 昌 性 结论 算是 一 个 缺点 ， 但 Bloom filter 的 优点 就 是 它们 确实 飞快 ， 











在 Apache Hadoop、Google 的 Bijgtable 和 和 Squid 代理 服务 器 缓存 中 ， 都 有 Bloom f 








6. Cassandra 














在 希腊 神话 之 中 ，Cassandra(〈 卡 珊 德 拉 ) 是 特洛伊 国王 普 利 阿 摩 斯 和 王后 赫 卡 柏 的 女 








Cassandra 存 储 系 统 是 一 个 Apache 项 目 ， 主 页 位 于 http:V//cassandra.apache .or 
。 该 项 目 2009 年 1 月 成 为 了 一 个 孵化 器 项 目 。 它 的 关键 特征 包括 无 中 心 、 弹 性 、 容 错 、 











cassandra 最 初 由 Facebook 开 发 ， 用 于 解决 他 们 的 收 件 箱 搜 索 问 题 。 开 发 团队 由 Jeff 





























Facebook 的 Lakshman 和 Malik 写 了 一 篇 名 为 “一 种 无 中 心 结构 化 存储 系统 ”的 论文 ， 介 
找到 。 

















Avinash Lakshman 还 在 2008 年 写 过 一 篇 博客 ,描述 他 们 在 Facebook 如 何 使 用 Cass 








很 容易 明白 Cassandra 数 据 库 为 什么 如 此 命名 : 它 的 支持 者 确信 ，Cassandra 和 其 他 本 








Ran Tavory 开 发 的 Java 客 户 端 Hector 是 用 Cassandra 的 兄弟 命名 的 。 


7. Chiton 






































fth, Chitonzé— PUE, 38 4$ EA, Bae. Brandon Williams 用 Ch 


与 此 相关 的 一 个 开源 项 目 ， 是 用 Twisted Python 写 的 Cassandra 底 层 客 户 端 API 项 目 


8. 集群 (cluster) 


集群 就 是 两 个 或 多 个 Cassandra 实 例 同 台 献艺 。 这 些 实例 使 用 Gossip 协 议 相 互通 信 。 

















新 配置 一 个 实例 来 引入 到 集群 中 时 ， 需 要 先 做 一 些 准 备 工作 。 首 先 准备 一 个 种 子 节点 
， 之 后 指定 两 个 要 监听 的 端口 : Gossip 

和 Thrift 

接口 。 集 群 配置 好 了 之 后 ， 可 以 使 用 node tool 来 验证 设置 是 否 正确 。 





























9. 列 (column) 





列 是 Cassandra 数 据 模 型 中 的 最 基本 的 数据 表示 单位 。 一 列 是 一 个 三 元 组 ， 包 括 名 〈 有 
。 为 了 避免 多 线程 问题 ， 列 是 不 可 变 的 。 











列 组 织 在 列 族 之 中 。 





cassandra 中 的 列 由 接口 org.apache.cassandra.db.IColumn 
定义 ， 其 中 定义 的 操作 包括 读 取 byte[ ] 

类 型 的 值 或 读 取 Collection<IColumn> 

类 型 的 子 列 ， 还 有 查询 最 近 修改 的 时 间 。 























列 会 按照 它们 的 类 型 来 排序 ， 包 括 AsciiType 
、BytesType 
. LexicalUUID-Type 
. LongType 
. TimeUUIDType 


~ UTF8Type 
。 参 见 列 族 


10. 列 族 (column family) 





列 族 的 地 位 大 致 相当 于 关系 型 模型 中 的 表 。 它 是 容纳 一 组 有 序 的 列 的 容器 。 











因为 每 个 列 族 都 存储 在 单独 的 文件 中 ， 所 以 ， 最 好 把 一 次 查询 需要 的 数据 放 在 同一 个 列 六 


























你 要 在 Cassandra 的 配置 文件 中 定义 列 族 。 还 可 以 提供 全 局 (每 个 keyspace 的 ) 值 用 
或 super 








参见 列 
、Keyspace 
、 超 级 列 


11. 列 名 (column name) 


= 和 
中 存储 的 名 / 值 对 的 “名 " 那 部 分 。 


12. 列 值 (column value) 


中 存储 的 名 / 值 对 的 “ 值 " 那 部 分 。 列 值 的 尺寸 会 受到 主机 内 存 的 限制 。 


u 





13. commit log 


commit 1og 用 于 所 有 的 Cassandra 写 操作 。 当 进行 一 个 写 操 作 时 ， 首 先 就 会 进入 到 co 
满 了 ， 数 据 就 会 刷 写 入 SSTable 
文件 之 中 。 











这 项 工作 由 org.apache.cassandra.db.commitlog.CommitLog 


类 负责 ， 每 次 写 或 删除 操作 ， 变 更 会 以 RowMutation 
对 象 的 形式 序列 化 并 追加 写 到 commit log 之 中 。 这 些 对 象 组 织 为 commit log 段 。 在 








14. JE (compaction) 





压 紧 是 通过 合并 大 的 累积 数据 文件 的 方式 来 释放 空间 的 过 程 。 这 个 过 程 大 致 相当 于 关系 








在 压 紧 期 间 进 行 的 释放 空间 的 操作 包括 合并 键 值 、 和 并 列 、 删 除 墓 碑 。 这 个 过 程 由 Org . 
类 负责 。Compaction-Manager 
实现 了 一 个 MBean 接 口 ， 所 以 它 是 支持 内 省 的 。 











cassandra 中 有 几 种 不 同类 型 的 压 紧 操作 。 





主 
压 紧 有 两 种 触发 方式 : 通过 节点 侦 测 或 是 自动 进行 。 节 点 侦 测 会 向 目 标 节 点 的 相 邻 节点 
包含 如 下 几 步 。 








获取 列 族 中 的 键 值 分 布 。 

















行 数 据 加 入 到 验证 器 中 之 后 ， 如 果 列 族 需要 验证 ， 就 会 创建 Merkle 树 ， 并 广播 到 

















3. 
Merkle 树 们 放 在 一 起 ， 作 为 一 个 Differencers 
(需要 验证 或 比较 的 树 ) 的 列表 发 送 。 
4. 














比较 过 程 由 StageManager 

类 进行 ， 这 个 类 负责 管理 执行 任务 时 的 并 发 问题 。 在 压 紧 时 ，StageManager 
使 用 一 个 逆 焙 阶段 。 它 使 用 org .apache.cassandra.concurrent.JM 
类 ， 在 一 个 单线 程 内 执行 压 紧 程序 ， 并 使 这 个 操作 可 以 作为 一 个 MBean， 文 持 内 人 


























15. 压缩 (compression) 





返回 值 压 缩 是 一 个 未 来 版 中 的 特性 ， 但 9. 6 还 不 支持 。 


16 ， 一 致 性 (consistency) 














致 性 意味 着 一 个 事务 不 会 让 数据 库 进 入 不 合法 状态 ， 不 会 违反 完整 性 约束 。 一 致 性 是 ; 





N = 存放 数据 副本 的 节点 数 




















W = 在 写 操作 成 功 返 回 之 前 必须 确认 写 入 成 功 的 副本 数 















































R = 在 读 操作 访问 数据 对 象 时 ， 需 要 获得 的 最 少 副本 数 


W+R>N = 强 一 致 性 





WwW+R<=AN= 最 终 一致 性 


17 ， 一 致 性 级 别 (consistency level) 











cassandra 的 配置 允许 你 决定 在 读 写 操作 过 程 中 ， 集 群 中 多 少 个 副本 给 出 确认 或 响应 可 
的 ， 而 不 是 系统 中 的 节点 总 数 。 





























有 多 个 可 选 的 一 致 性 级 别 可 以 用 来 进行 性 能 调 优 。 最 高 性 能 的 级 别 ， 一 致 性 级 别 也 最 低 。 





对 于 写 操作 ， 

















ZERO: 写 操作 将 会 在 一 个 后 台 线 程 中 异步 完成 ， 无 法 确保 写 操作 一 定 成 功 。 这 和 是 








ANY: 这 个 级 别 是 在 Cassandra 0.6 中 引入 的 ， 意 味 着 你 可 以 确信 数据 至 少 已 经 
) 也 被 看 做 是 一 个 成 功 的 写 入 。 这 也 是 一 种 相对 弱 的 一 致 性 级 别 。 








ONE: 保证 在 返回 时 ， 数 据 至 少 已 经 写 入 到 一 个 节点 的 commit log 和 memtable 




















QUORUM: 一 定数 量 的 节点 可 以 就 一 个 操作 达成 一 致 。 数 量 定 为 副本 因子 /2+1。 所 
































DCQUORUM: 选举 (quorum) 的 一 个 版 本 ， 由 同一 个 
数据 中 心里 的 副本 进行 投票 ， 在 选举 的 高 一 致 性 和 在 一 个 数据 中 心 的 副本 间 进 行 # 
















































































ALL: 保证 在 返回 时 副本 因子 指定 数量 的 节点 都 接收 到 数据 了 。 如 宁 茶 个 副本 对 写 











对 于 读 操作 ， 





ONE: 当 第 一 个 节点 响应 时 ， 了 江 刻 返回 该 响应 的 值 。 在 后 人 台 进 行 读 时 修复 。 





QUORUM: 查询 所 有 节点 。 当 一 部 分 副本 《副本 因子 /2+1) 返回 的 时 候 ， 把 时 间 戳 












































c— 


DCQUORUM: 只 保证 同一 个 数据 中 心 的 节点 被 查询 到 。 仅 当 使 用 机 架 感 知 副 本 放置 








ALL: 查询 所 有 节点 ， 并 把 时 间 戳 最 新 的 记录 返回 给 客户 端 。 这 个 级 别 会 等 待 所 有 














注意 ， 读 操作 没有 ZER0 这 个 一 致 性 级 别 ， 因 为 在 读数 据 时 不 要 求 任何 节点 响应 是 没有 意 








18. 数据 中 心 分 片 策 略 (data center shard strategy) 














19. 无 中 心 (decentralized) 


Cassandra 是 无 中 心 的 ， 因 为 它 没 有 定义 主 服 务 器 ， 而 是 使 用 对 等 方式 ， 从 而 避免 了 瓶 








20. 反 范 式 化 (denormalization) 


在 关系 型 数据 库 中 ， 有 时 候 会 采用 反 范式 化 或 创建 见 余 数据 ， 以 改善 读 密集 型 应 用 的 性 外 








21. 持久 性 (durability) 





数据 库 的 持久 性 意味 着 写 操作 会 永久 生效 ， 即 使 服务 器 崩 湿 或 突然 断 电 也 是 如 此 。 














Cassandra 通 过 在 commit log 后 面 进行 筷 加 写 来 达到 持久 性 。 这 样 就 允许 服务 器 避免 


当 使 用 一 个 单 服务 节点 时 ，Cassandra 并 不 立刻 让 存储 服务 的 核心 状态 和 文件 同步 。 这 


参考 Commit Log 


22. Dynamo 

















2006 年 由 亚马逊 开发 ，Dynamo 和 Google 的 Bijgtable 都 是 Cassandra 的 主要 设计 基 


你 可 以 在 http://www.allthingsdistributed.com/2007/10/amazons_dynam 
阅读 这 篇 完整 论文 : “Dynamo: 亚 马 还 的 高 可 用 键 值 存储 ”。 





23. 弹性 (elastic) 








IE 
TN 
o 





读 写 否 吐 量 可 以 随 着 集群 中 机 器 数量 的 增加 而 线性 增 


24. 最 终 一 致 性 Ceventual consistency) 





一 致 性 是 一 种 描述 数据 在 一 个 更 新 操作 之 后 的 内 部 完整 性 的 属性 。 在 强 一 致 性 数据 库 中 ， 














最 终 一 致 性 在 过 去 几 年 越 来 越 流 行 ， 因 为 它 可 以 支持 极 高 的 可 扩展 性 。 虽 然 传统 的 完整 





虽然 Cassandra 的 最 终 一 致 性 设计 是 基于 亚马逊 的 Dynamo 的 设计 的 ， 但 Cassandra 可 
， 其 至 可 以 要 求 Cassandra 在 所 有 副本 都 可 读 之 前 阻塞 住 操 作 ( 这 也 就 是 完全 一 致 性 ) 

















其 他 最 终 一致 性 数据 存储 系统 还 包括 Riak、Voldemort、MongoDB、Yahoo1! 的 HBase 


25. 故障 检测 failure detection) 
故障 检测 是 在 分 布 式 容错 系统 中 ， 判 断 哪个 节点 发 生 了 故障 的 过 程 。Cassandra 的 故障 


cassandra 中 的 故障 检测 在 org.apache.cassandra.gms.FailureDetect 
类 中 实现 。 


可 以 在 http://ddg.jaist.ac.jp/pub/HDY+04.pdf 
阅读 Naohiro Hayashibara 等 人 的 Phi 增 量 故障 检测 的 论文 。 





26. 容错 性 (fault tolerance) 











容错 性 是 指 一 个 系统 在 它 的 一 个 或 多 个 组 件 发 生 故 障 的 情况 下 ， 可 以 继续 提供 服务 的 能 








27. Gossip 





gossiper 负 责 保障 集群 中 的 所 有 节点 都 能 得 到 其 他 节点 的 重要 状态 信息 。gossiper 每 
。 而 且 ，gossip 也 是 逆 粒 策略 的 一 个 重要 部 分 。 











gossiper 以 键 值 对 的 形式 传播 信息 ，gossip 协 议会 持续 给 其 他 节点 传播 状态 信息 ， 直 

















当 一 个 服务 节点 启动 后 ， 它 会 把 自己 注册 到 gossiper。 更 多 的 信息 可 以 查看 org.apa 
类 
To 


还 可 以 参考 这 篇 亚马逊 关于 gossip 的 论文 : http://www.cs.cornell.edu/home/ 


28. Hector 





Lu 














boutbrain 的 Ran Tavory 创 立 的 一 个 开源 项 目 ， 托 管 在 GitHub。Hector 是 一 个 用 J 


29 .提示 移交 (hinted handoff) 


这 是 一 个 保证 可 用 性 、 容 错 性 和 平滑 降 质 的 机 制 。 如 果 一 个 写 请 求 到 达 Cassandra， 但 


























接收 提示 的 节点 将 会 在 节点 恢复 在 线 后 ， 通 过 gossip 很 快 获知 。 如 果 由 于 某 种 原因 ， 提 





30， 键 值 (key) 





参考 行 键 值 


31. Keyspace 
keyspace 是 列 族 的 容器 ， 大 致 对 应 于 关系 模型 中 的 数据 库 ， 在 Cassandra 中 用 于 区 分 


参见 列 族 


32. 字典 序 (lexicographic ordering? 





字典 序 是 两 个 有 序 笛 卡 儿 集 乘积 的 自然 〈 字 母 ) 排序 方式 。 





33. Memtable 


新 近 写 入 数据 的 内 存 表达 形式 。 一 旦 m 


34. Merkle f 





emtab1e 写 满 ， 就 会 被 刷 写 到 硬盘 之 中 ， 成 为 一 1 








Merk1le 树 又 称 为 “ 哈 希 树 “。 它 的 数据 结构 是 一 个 二 又 树 ， 对 于 表示 大 数据 集 的 简短 摘 








Cassandra 中 ，Merkle 树 由 org.apache.cassandra.utilsMerkleTree 








类 实现 。 





在 Cassandra 中 ，Merkle 树 用 于 保 订 


35. Multiget 





通过 列 名 查询 一 组 键 值 。 


36. Multiget Slice 





查询 一 组 键 值 的 一 个 子 集 的 列 。 


37. 节点 (node) 


F 对 等 网 络 中 节点 收 到 的 数据 块 是 未 被 修改 和 破坏 





一 个 Cassandra 实 例 。 通 常 一 个 Cassandra 集 群 会 有 很 多 节点 ， 有 时 ， 它 们 作为 一 个 避 











38. Node tool 





























这 是 指 可 执行 文件 bijn/nodetool， 用 于 检测 集群 的 配置 是 否 合理 ， 并 可 以 进行 其 他 
的 命令 包括 cleanup 
. Clearsnapshot 
. compact 
. Cfstats 
. decommission 


. drain 
. flush 
. info 








. loadbalance 


. move 
. repair 
. ring 


. snapshot[snapshotname] 
. removetoken 
和 tpstats 


比如 ， 你 可 以 使 用 nodetool drain 
来 阻止 commit log 接 收 新 的 写 操作 。 


39. NoSQL 











“NoSQL” 这 个 名 词 ， 用 来 描述 一 些 不 使 用 SQL 或 关系 模型 的 数据 库 。 有 时 解释 为 “Not 
SQL”， 用 来 指出 非 关 系 型 数据 库 的 误 吹 者 并 不 认为 关系 型 数据 库 是 个 坏 主 意 ， 相 反 ，; 














40 ， 有 序 分 区 器 (Order-Preserving Partitioner) 











这 是 一 类 按照 键 值 顺序 存放 行 的 分 区 器 


























£ 














， 将 数据 物理 





已 一 | 


者 构 按照 排序 方式 对 齐 。 将 列 族 配置 为 有 序 分 区 器 允许 使 用 区 间 切 片 ， 这 





这 种 分 区 器 不 同 于 随机 分 区 器 
， 它 的 优点 是 可 以 提供 更 有 效率 的 区 间 查 询 ， 但 是 缺点 是 键 值 分 布 不 均匀 。 























有 序 分 区 器 (OPP) 由 org.apache.cassandra.dht.OrderPreservingPa 
类 实现 。 





























有 一 种 特殊 的 OPP 称 为 配 页 有 序 分 区 器 CCOPPO 。 它 与 普通 OPP 非 常 类 似 ， 但 数据 信息 











coPPHiorg.apache.cassandra.dht.CollatingOrderPreservingPa 
类 实现 。 











41. 分 区 (partition) 





作为 一 个 通用 名 词 ， 分 区 指 网 络 分 裂 
， 是 将 一 个 网 络 分 断 ， 使 得 一 个 机 器 无 法 和 另 一 个 直接 通信 。 分 区 可 能 由 交换 机 、 路 由 






































cassandra 是 一 个 具有 容错 性 的 数据 库 ， 网 络 分 区 也 是 一 种 考虑 在 内 的 故障 。 因 此 ， 即 


42. 分 区 器 (partitioner) 





分 区 器 控制 数据 在 节点 间 如 何 分 布 。 要 找到 一 组 数据 ，Cassandra 必 须知 道 哪 个 节点 存 
元 素 配 置 分 区 器 : «Partitioner»org.apache.cassandra.dht.Rando 
。 注 意 : 分 区 器 的 选择 不 影响 列 的 排序 ， 只 影响 行 键 值 的 排序 。 


























一 旦 选择 了 分 区 器 的 类 型 ， 就 无 法 在 不 破坏 数据 的 情况 下 改变 分 区 器 (因为 SSTable 
是 不 可 修改 的 ) 。 参 考 有 序 分 区 器 
和 随机 分 区 器 








43. 选举 (quorum) 

















多 数 节 点 啊 应 了 一 个 操作 。 这 是 一 个 可 选 的 一 致 性 级 别 。 在 选举 读 中 ， 代 理 节 点 会 等 待 





44. 机 架 感知 策略 (Rack-Aware Strategy) 

















参见 副本 放置 策略 


45. 随机 分 区 器 (random partitioner) 


随机 分 区 器 使 用 BijgIntegerToken 
存放 MD5 哈 希 值 ， 通 过 哈 希 值 来 决定 键 值 放 在 环 上 的 具体 位 置 。 这 样 做 的 好 处 是 ， 可 以 














参见 分 区 右 
和 有 序 分 区 器 





46. 区 间 切 片 (range slice) 





查询 一 个 键 值 区 间 的 列 的 子 集 。 


47. 读 时 修复 (read repair) 


这 也 是 一 种 保障 环 上 数据 一 致 性 的 机 制 。 在 读 操作 时 ， 如 果 Cassandra 发 现 某 些 节点 响 








进行 数据 修复 的 方法 来 自 org.apache.cassandra.streaming 
包 。 





48. 副本 机 制 (replication) 














在 一 般 分 布 式 系 统 中 ， 副 本 机 制 指 将 数据 的 多 个 副本 保存 在 多 个 机 器 上 ， 这 样 如 果 有 一 
不 可 用 ， 集 群 中 仍然 有 可 用 数据 。 绥 存 是 一 个 简单 的 副本 机 制 的 形式 。 在 Cassandra 






































49. 副本 因子 (replication factor) 





























cassandra 提 供 了 一 个 可 配置 的 副本 因子 ， 人 允许 你 决定 希望 付出 多 少 性 能 来 获得 更 高 的 


























50 .副本 策略 (replication strategy) 














副本 策略 有 时 候 也 叫 放置 集 略 ， 决 定 了 副本 的 分 布 方 式 。 第 一 个 副本 总 会 放 在 拥有 对 应 i 
的 节点 。 其 余 的 副本 依据 可 配置 的 副本 放置 策略 在 集群 中 分 布 。 





































































































Cassandra 使 用 了 “四 人 帮 ” 的 策略 模式 ， 人 允许 可 置换 的 副本 放置 策略 。Cassandra 提 伐 






































副本 放置 策略 都 扩展 自 org.apache.cassandra.locator.AbstractRepl 
抽象 类 。 如 果 你 愿意 扩展 这 个 类 ， 也 可 以 实现 自己 的 副本 放置 策略 。 























副本 放置 策略 是 keyspace 的 属性 ， 通 过 <ReplicaPlacementStrategy> 
元 素 配 置 。 它 们 在 第 6 章 进行 了 深入 的 讨论 。 



































51. ÍT (row) 








在 列 族 中 ， 一 行 是 一 个 有 序 映射 ， 以 列 名 为 键 值 ， 列 值 为 值 。 对 于 超级 列 族 ， 一 行 是 一 了 
是 每 行 唯 一 的 标识 ， 每 行 包含 了 列 的 名 / 值 对 。 单 一 行 的 大 小 不 能 超过 磁盘 空间 的 限制 。 





i 























行 通 过 分 区 器 进行 排序 ， 分 区 器 的 可 能 类 型 包括 随机 分 区 器 、 有 序 分 区 器 和 配 页 有 序 分 








行 的 定义 位 于 org.apache.cassandra.db .Row 
类 
Ro 











52. 行 键 值 (row key) 














有 时 简称 为 “ 键 值 *， 行 键 值 类 似 于 关系 模型 中 一 个 对 象 的 主键 。 它 代表 了 标识 一 行 的 所 








在 Thrift 接 口中 ，Java 客 户 端 总 是 假设 行 键 值 是 UTF- 8 编码 的 ， 但 是 对 其 他 语言 的 客 


53. SEDA 





Cassandra 采 用 了 SEDA 分 阶段 事件 驱动 架构 ，Staged Event-Driven Architec 
































当 事 件 到 达 进入 队列 ， 应 用 提供 的 事件 管理 器 会 被 调用 。 控 制 器 能 够 为 每 个 阶段 根据 需 > 











你 可 以 通过 Matt Welsh, David Culler 和 Eric Brewer 的 位 于 http://www.ee 
的 原文 来 了 解 更 多 关于 SEDA 的 信息 。 





参见 阶段 


54. 种 子 节 点 (seed node) 


种 子 节 点 是 一 个 已 经 在 Cassandra 和 集群 中 的 节点 ， 用 于 帮助 新 加 入 的 节点 获取 数据 并 开 


55. 切片 (slice) 


这 是 一 种 读 查 询 。 使 用 get_slice() 
通过 一 组 列 名 或 一 个 列 名 区 间 进 行 查询 。 使 用 get_range_slice() 
返回 一 个 区 间 的 键 值 的 一 个 子 集 列 。 





56. Snitch 
























Snitch 是 Cassandra 将 节点 映射 到 网 络 中 的 物理 位 置 的 方法 。 它 帮助 判断 节点 相对 于 寺 
(或 RackInferringSnitch 
) 可 以 判断 两 个 节点 是 否 在 同一 个 数据 中 心 或 是 否 在 同一 个 机 架 。 这 个 策略 是 通过 它们 





iriDataCenterEndpointSnitch 
允许 为 机 架 指 定 IP 子 网 ， 按 照 机 架 所 属 的 数据 中 心 进行 分 组 。 








PropertyFileSnitch 
foWrtE—^ Wi 7gcassandra-rack.properties(íl)Jg EXA IRE IPHAN 








Snitch 策 略 类 位 于 org.apache.cassandra.locator 
包 。 


57. Wi (sparse) 


在 关系 型 模型 中 ， 每 个 数据 类 型 〈 表 ) 的 每 列 都 必须 有 值 ， 即 使 有 些 时 候 这 个 值 是 空 的 。 








58. SSTable 











SsTable 是 Sorted String Table (有 序 字 符 串 表 ) 的 缩写 、 这 个 概念 是 从 Google 











SSTable 是 不 可 更 改 的 。 一 旦 memtable 刷 写 到 磁盘 上 称 为 一 个 SSTable， 就 无 法 应 用 
操作 仅仅 改变 它们 在 磁盘 上 的 表现 形式 。 











要 将 数据 导入 或 导出 JavaScript 对 象 标记 
类 和 SSTableExporter 


类 。 


59. 阶段 (stage) 





作为 Cassandra 的 分 阶段 事件 驱动 架构 (SE 























一 个 阶段 包含 到 达 事 件 队列 、 事 件 处 理 器 和 相关 联 的 线程 池 。 阶 段 由 一 个 控制 器 所 管理 
实现 了 这 种 并 发 模型 。 要 查看 阶段 是 如 何 工作 的 ， 可 以 看 org.apache.cassand 
关 














Jo 





类 ， 和 StorageService 
的 一 致 性 管理 器 。 


























一 个 操作 可 以 在 一 个 线程 中 开始 ， 之 后 将 工作 


参见 SEDA 





60. 强 一 致 性 (strong consistency) 











(JSOM) ， 可 以 使 用 org.apache.cas 


DA) 的 一 部 分 ， 阶 段 是 一 个 工作 单位 的 一 ?1 









































E 9 




















还 有 一 些 其 他 操作 也 作为 阶段 实现 了 ， 包 括 处 理 memtable 的 ColumnFamilyStore 








移交 给 另 一 个 线程 。 这 个 移交 并 不 是 直接 


对 于 读 操 作 ， 强 一 致 性 意味 着 如 果 发 现 需 要 进行 读 时 修复 ， 首 先进 行 读 时 修复 ， 然 后 返 


61. 超级 列 (super column) 





超级 列 的 值 不 是 字符 串 ， 而 是 一 组 有 名 字 的 其 他 列 的 列表 ， 这 里 称 作 子 列 。 子 列 也 是 有 














超级 列 是 非 递 归 的 ， 也 就 是 说 ， 它 们 只 有 一 级 深度 。 超 级 列 只 能 存放 其 他 列 的 映射 ， 而 








超级 列 在 Supercolumn. java 中 定义 ， 这 个 类 实现 了 IColumn 


和 IColumn-Container 
两 个 接口 。 这 些 接口 允许 进行 的 操作 包括 : 取出 超级 列 中 的 所 有 子 列 ， 通 过 名 字 取 出 一 








超级 列 是 Facebook 对 Google 的 Bigtable 的 数据 模型 的 一 个 改进 。 


参见 列 族 


62. Thrift 











Thrift 是 用 于 与 Cassandra 通 信 的 RPC 客 户 端 的 名 字 。 它 可 以 静态 生成 一 个 接口 ， 用 











Thrift 由 Facebook 于 2007 年 4 月 实现 ， 并 在 2008 年 5 月 作为 一 个 孵化 器 项 目 捐 给 了 Ap 




















你 可 以 在 该 项 目 主页 了 解 Thrift 的 更 多 信息 : http://incubator.apache.org/th 


63， 时 间 惟 (timestamp) 























cassandra 中 ， 列 值 的 时 间 惟 是 由 客户 端 提 供 的 ， 所 以 客户 端的 时 钟 同 步 很 重要 。 时 间 











64. S (token) 





环 上 的 每 个 节点 都 有 一 个 单独 的 令 牌 ， 用 于 标明 其 所 拥有 的 键 值 范围 。 根 据 环 上 前 一 个 


对 于 随机 分 区 器 
; 他 有 牌 是 一 个 在 927 
的 证 书 ， 通 过 对 刍 值 进行 MD5 哈 希 而 得 。 这 个 令 牌 位 于 org.apache.cassandra 














类 。 


对 于 有 序 分 区 器 
， 令 牌 是 一 个 基于 键 值 的 UTF- 8 字符 串 ， 位 于 org.apache.cassandra.dht.s 
XH 
J o 

















N 


类 


Cassandra 中 的 令 牌 都 派生 自 org.apache.cassandra.dht.Token 


65. 墓碑 (tombstone) 
cassandra 并 不 会 在 删除 操作 之 后 立刻 删除 数据 。 相 反 ， 它 将 数据 标记 为 一 个 “墓碑 ”， 


墓碑 会 在 主 压 紧 
时 被 清理 掉 。 























66. 向量 时 钟 (vector clock) 














向 量 时 钟 让 分 布 式 系统 的 事件 可 以 成 为 部 分 因果 有 序 的 。 向 量 时 钟 保存 了 一 个 逻辑 时 钟 


























所 有 时 钟 都 从 9 开始 。 每 当 有 一 个 线程 经 历 了 一 个 事件 ， 它 的 时 钟 就 会 加 一 。 每 当 一 个 进 








一 个 向 量 时 钟 时 间 同 步 策略 有 可 能 会 在 Cassandra 的 未 来 版 本 中 引入 。 








67. 弱 一 致 性 (weak consistency) 








对 于 读 操 作 ， 弱 一 致 性 通过 首先 返回 结果 ， 然 后 再 进行 必要 的 读 时 修复 
， 从 而 提升 了 性 能 。 
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关于 封面 











《Cassandra 权 威 指南 》 封 面 上 是 一 只 














EME 














二 态 的 ， 也 就 是 说 | 














ES AE 





乌 的 外 观 有 较 大 差别 。 多 数 雌 绥 



































绥 带 鸟 的 分 布 非常 广 沁 ， 栖 息 地 包括 热带 草原 、 竹 林 、 雨 林 、 落 叶 林 乃 至 种 植 园 。 大 多 类 











封面 图 片 来 自 Casse1l1l 的 Natural History 卷 外。 封面 字 体 是 Adobe ITC Garamont 
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